Reinforcement learning označuje třídu problémů ve strojovém učení, které postulují agenta zkoumajícího prostředí, ve kterém agent vnímá svůj aktuální stav a koná. Prostředí na oplátku poskytuje odměnu (která může být kladná nebo záporná). Reinforcement learning algoritmy se snaží najít politiku pro maximalizaci kumulativní odměny pro agenta v průběhu problému.
Prostředí je obvykle formulováno jako konečný Markovův rozhodovací proces (MDP) a algoritmy pro učení se posilování pro tento kontext jsou vysoce spjaty s dynamickými programovacími technikami. Pravděpodobnosti přechodu stavu a pravděpodobnosti odměny v MDP jsou typicky stochastické, ale stacionární v průběhu problému.
Reinforcement learning se liší od sledovaného učebního problému tím, že nikdy nejsou prezentovány správné dvojice vstupů a výstupů, ani nejsou explicitně korigovány suboptimální akce. Dále je kladen důraz na on-line výkonnost, která zahrnuje nalezení rovnováhy mezi prozkoumáváním (neprobádaného území) a využíváním (současných znalostí). Kompromis mezi prozkoumáváním a využíváním v oblasti reinforcement learning byl většinou studován prostřednictvím problému vícerukých banditů.
Formálně se základní model výuky posilování skládá z:
V každém čase t agent vnímá svůj stav st S a množinu možných akcí A(st). Zvolí akci aA(st) a obdrží z prostředí nový stav st+1 a odměnu rt+1. Na základě těchto interakcí musí agent pro učení se posilování vytvořit zásadu π:S→A, která maximalizuje množství R=r0+r1+…+rn pro MDP, které mají terminální stav, nebo množství R=Σtγtrt pro MDP bez terminálních stavů (kde γ je nějaký diskontovací faktor „budoucí odměny“ mezi 0,0 a 1,0).
Posilovací učení je tedy obzvláště vhodné pro problémy, které zahrnují dlouhodobou versus krátkodobou odměnu. Bylo úspěšně aplikováno na různé problémy, včetně ovládání robota, plánování výtahů, telekomunikací, vrhcábů a šachů.
Poté, co jsme definovali vhodnou návratovou funkci, která má být maximalizována, musíme specifikovat algoritmus, který bude použit k nalezení zásady s maximálním návratem. Existují dva hlavní přístupy, přístup hodnotové funkce a přímý přístup. Hrubá síla se nepoužívá, protože zahrnuje následující dva kroky: a) Pro každou možnou politiku se vrací vzorek, zatímco ji dodržujeme. b) Zvolte politiku s největším očekávaným návratem. Prvním problémem je, že počet politik může být extrémně velký, nebo dokonce nekonečný. Druhým je, že návraty mohou být stochastické, v takovém případě bude požadováno velké množství vzorků k přesnému odhadu návratnosti každé politiky. Tyto problémy by mohly být zmírněny, pokud budeme předpokládat nějakou strukturu v problému a nějakým způsobem umožníme, aby vzorky vytvořené z jedné politiky ovlivnily odhady vytvořené pro jinou politiku.
Přístupy funkce hodnoty to dělají tak, že udržují pouze soubor odhadů očekávaných výnosů pro jednu politiku π (obvykle buď aktuální nebo optimální).
V takových přístupech se člověk pokouší odhadnout buď očekávaný výnos počínaje stavem
s a následováním π poté,
nebo očekávaný výnos při konání akce a ve stavu s a po π poté,
nebo můžeme použít tzv. Actor-Critic metody, ve kterých je model rozdělen na dvě části: Kritik, který udržuje stavový odhad hodnoty V, a herec, který je zodpovědný za výběr vhodných akcí v každém stavu.
Proto provedení tohoto odhadu pro v obecně se nezdá být zřejmé. Ve skutečnosti je to docela jednoduché, jakmile si uvědomí, že očekávání R tvoří rekurzivní Bellmanova rovnice:
Nahrazením těchto očekávání našimi odhady V a provedením sestupu gradientu s kvadratickou chybovou nákladovou funkcí získáme algoritmus pro učení časových rozdílů TD(0). V nejjednodušším případě je množina stavů i akcí diskrétní a pro každý stav udržujeme tabulkové odhady. Podobné stavové-akční párové metody jsou SARSA a Q-Learning. Všechny metody mají rozšíření, kdy je použita nějaká aproximační architektura, i když v některých případech není konvergence zaručena. Odhady jsou obvykle aktualizovány nějakou formou sestupu gradientu, i když v poslední době došlo k vývoji s metodami nejmenších čtverců pro případ lineární aproximace.
Výše uvedené metody nejenže všechny konvergují ke správným odhadům pro fixní politiku, ale mohou být také použity k nalezení optimální politiky. Obvykle se tak děje následováním politiky π, která je nějakým způsobem odvozena z aktuálních odhadů hodnot, tj. volbou akce s nejvyšším vyhodnocením po většinu času, zatímco stále občas provádí náhodné akce za účelem prozkoumání prostoru. Důkazy pro konvergenci k optimální politice existují také pro výše uvedené algoritmy, za určitých podmínek. Nicméně všechny tyto důkazy prokazují pouze asymptotickou konvergenci a málo je teoreticky známo o chování RL algoritmů v případě malého vzorku, kromě velmi omezených nastavení.
Alternativní metodou k nalezení optimální politiky je hledání přímo v prostoru politiky. Metody prostoru politiky definují politiku jako parametrizovanou funkci π(s,θ) s parametry θ. Běžně se k úpravě parametrů používá metoda gradientu. Použití metod gradientu však není triviální, protože se nepředpokládá žádná informace o gradientu. Spíše musí být samotný gradient odhadnut z hlučných vzorků návratnosti. Vzhledem k tomu, že to značně zvyšuje výpočetní náklady, může být výhodné použít výkonnější metodu gradientu než nejstrmější sestup gradientu. Metody gradientu prostoru politiky se v posledních 5 letech těšily velké pozornosti a nyní dosáhly poměrně vyspělého stadia, ale zůstávají aktivním polem. Existuje mnoho dalších přístupů, jako je simulované žíhání, které lze použít k prozkoumání prostoru politiky. Práce na těchto dalších technikách je méně rozvinutá.
Leslie Kaelbling, Michael Littman, Andrew Moore. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research 4 (1996), str.
Richard Sutton a Andrew Barto. Reinforcement Learning. MIT Press, 1998. (dostupné)
Dimitri P. Bertsekas a John Tsitsiklis. Neuro-dynamické programování. Athena Scientific, 1996.
Jan Peters, Sethu Vijayakumar, Stefan Schaal, Reinforcement Learning for Humanoid Robotics, IEEE-RAS International Conference on Humanoid Robots [ke stažení].