Dočasné učení rozdílů

Temporal difference learning (učení časových rozdílů) je metoda predikce. Většinou se používá pro řešení problému s posilováním učení. „TD learning je kombinace myšlenek Monte Carlo a myšlenek dynamického programování (DP).“ TD připomíná metodu Monte Carlo, protože se učí vzorkováním prostředí podle nějaké politiky. TD souvisí s technikami dynamického programování, protože přibližuje svůj současný odhad na základě dříve naučených odhadů (proces známý jako bootstrapping). Algoritmus učení TD souvisí s modelem časových rozdílů učení zvířat.

Matematicky řečeno, jak ve standardním, tak v TD přístupu, bychom se pokusili optimalizovat nějakou nákladovou funkci, související s chybou v našich predikcích očekávání nějaké náhodné proměnné, E[z]. Nicméně, zatímco ve standardním přístupu v jistém smyslu předpokládáme E[z]=z (skutečná pozorovaná hodnota), v TD přístupu používáme model. Pro konkrétní případ výztužného učení, což je hlavní aplikace TD metod, z je celkový výnos a E[z] je dáno Bellmanovou rovnicí výnosu.

TD algoritmus v neurovědě

Algoritmu TD se dostalo pozornosti také v oblasti neurovědy. Výzkumníci zjistili, že rychlost výpalu neuronů dopaminu ve ventrální tegmentální oblasti (VTA) a substantia nigra (SNc) zřejmě napodobuje chybovou funkci v algoritmu . Chybová funkce zpětně hlásí rozdíl mezi odhadovanou odměnou v daném stavu nebo časovém kroku a skutečnou obdrženou odměnou. Čím větší chybová funkce, tím větší rozdíl mezi očekávanou a skutečnou odměnou. Když je to spárováno se stimulem, který přesně odráží budoucí odměnu, může být chyba použita k asociaci stimulu s budoucí odměnou.

Zdá se, že dopaminové buňky se chovají podobným způsobem. V jednom experimentu byla provedena měření dopaminových buněk při výcviku opice, aby spojila podnět s odměnou džusu . Zpočátku dopaminové buňky zvyšovaly rychlost odpalování, když byly vystaveny džusu, což ukazovalo na rozdíl v očekávaných a skutečných odměnách. Postupem času se tento nárůst zpětného odpalování rozšířil na nejbližší spolehlivý podnět pro odměnu. Jakmile byla opice plně vycvičena, dopaminové buňky přestaly odpalovat. To věrně napodobuje, jak se chybová funkce v TD používá pro výztužné učení.

Doporučujeme:  Řízení fluktuace zaměstnanců

Vztah mezi modelem a potenciální neurologickou funkcí přinesl výzkum pokoušející se využít TD k vysvětlení mnoha aspektů behaviorálního výzkumu . Byl také použit ke studiu stavů, jako je schizofrenie nebo důsledky farmakologických manipulací s dopaminem na učení .

Dovolit být posílení v časovém kroku t. Dovolit být správnou předpověď, která se rovná diskontovanému součtu všech budoucích posílení. Diskontování se provádí mocniny faktoru taková, že posílení ve vzdáleném časovém kroku je méně důležité.

Tento vzorec lze rozšířit

změnou indexu i na začátek od 0.

Posilování je tedy rozdílem mezi ideální predikcí a aktuální predikcí.

TD-Lambda je učební algoritmus, který vymyslel Richard Sutton na základě dřívějších prací na učení časových rozdílů od Arthura Samuela . Tento algoritmus byl slavně použit Geraldem Tesaurem k vytvoření TD-Gammon, programu, který se může naučit hrát hru backgammon skoro tak dobře jako zkušení lidští hráči. Parametr lambda (λ) zde odkazuje na parametr trace decay, s 0 < λ < 1. Vyšší nastavení vede k dlouhodobějším stopám; to znamená, že větší podíl kreditu z odměny může být dán více distálním stavům a akcím, když je λ vyšší, s λ=1 produkující paralelní učení k algoritmům Monte Carlo RL.

Sutton, R.S., Barto A.G. (1990) Time Derivative Models of Pavlovian Reinforcement, Learning and Computational Neuroscience (k dispozici zde).

Richard Sutton. Učí se předvídat pomocí metod časových rozdílů. Strojové učení 3:9-44. 1988. (Revidovaná verze je dostupná na publikační stránce Richarda Suttona)

Richard Sutton a Andrew Barto. Reinforcement Learning. MIT Press, 1998. (k dispozici online)

Schultz, W, Dayan, P & Montague, PR. 1997. Nervový substrát predikce a odměny. Science 275:1593-1599.

Schultz W. 1998. Prediktivní signál odměny dopaminových neuronů. J Neurophysiology 80:1-27.

Dayan P. 2002. Motivované posilování učení. In: Ghahramani T, editor. Advances in neural information processing system, Cambridge, MA: MIT Press.

Doporučujeme:  Automatické vysílání

Smith, A., Li, M., Becker, S. and Kapur, S. (2006), Dopamin, chyba predikce a asociativní učení: účet založený na modelu. Síť: Počítání v neuronových systémech 17(1):61-84.

Gerald Tesauro. Učení časových rozdílů a TD-Gammon. Komunikace ACM, březen 1995 / sv. 38, č. 3. (dostupné na Učení časových rozdílů a TD-Gammon)