Operační kondicionování

Operantské podmiňování je aspektem teorie učení a je používáním následků k modifikaci výskytu a formy chování. Operantské podmiňování je odlišeno od Pavlovova podmiňování v tom, že operantní podmiňování se zabývá modifikací dobrovolného chování pomocí použití následků, zatímco Pavlovovo podmiňování se zabývá podmiňováním chování tak, aby k němu docházelo za nových předcházejících podmínek.

Operantské podmiňování, někdy nazývané instrumentální podmiňování nebo instrumentální učení, poprvé zevrubně studoval Edward L. Thorndike (1874-1949), který pozoroval chování koček snažících se uniknout z podomácku vyrobených krabic s hlavolamy. Když byly kočky poprvé omezeny v krabicích, trvalo jim dlouho, než unikly. Se zkušeností se neúčinné reakce objevovaly méně často a úspěšné reakce se objevovaly častěji, což umožňovalo kočkám uniknout v kratším čase během po sobě jdoucích zkoušek. Thorndike ve svém Zákoně efektu teoretizoval, že úspěšné reakce, které vyvolávaly uspokojivé následky, byly „zadupány“ zkušeností, a tedy se objevovaly častěji. Neúspěšné reakce, které vyvolávaly nepříjemné následky, byly zadupány a následně se objevovaly méně často. Stručně řečeno, některé následky posilovaly chování a některé následky oslabovaly chování. B.F. Skinner (1904-1990) stavěl na Thorndikeových myšlenkách, aby vytvořil podrobnější teorii operantního podmiňování založenou na posílení, potrestání a vyhynutí.

Posilování, trestání a vyhynutí

Posilování a trestání, základní myšlenky operantního podmiňování, jsou buď pozitivní (zavedení podnětu do prostředí organismu po odezvě), nebo negativní (odstranění podnětu z prostředí organismu po odezvě). To vytváří celkem čtyři základní důsledky, s přidáním pátého postupu známého jako vyhynutí (tj. po odezvě se nic neděje).

Je důležité si uvědomit, že o organismech se nemluví jako o posílených, potrestaných nebo vyhaslých; je to reakce, která je posílená, potrestaná nebo vyhaslá. Navíc posílení, potrestání a vyhynutí nejsou pojmy, jejichž použití je omezeno na laboratoř. O přirozeně se vyskytujících důsledcích lze také říci, že posilují, trestají nebo vyhasínají chování a ne vždy je lidé pronášejí.

Čtyři kontexty operantního podmiňování:
Zde se termíny „pozitivní“ a „negativní“ nepoužívají v jejich populárním smyslu, ale spíše: „pozitivní“ odkazuje na sčítání a „negativní“ odkazuje na odčítání. Co se sčítá nebo odčítá, může být buď posílení nebo trest. Pozitivní trest je tedy někdy matoucí termín, protože označuje sčítání trestu (jako výprask nebo elektrický šok), kontext, který se může zdát velmi negativní v laickém smyslu. Čtyři postupy jsou:

Operant Conditioning vs pevné akční vzory

Skinnerův konstrukt instrumentálního učení je v kontrastu s tím, co nositel Nobelovy ceny za biologii Konrad Lorenz označil za „pevné vzorce chování“ neboli reflexivní, impulzivní nebo instinktivní chování. Skinner a další uvedli, že toto chování existuje mimo parametry operantního podmiňování, ale bylo považováno za zásadní pro komplexní analýzu chování.

Doporučujeme:  Rostrální ventrolaterální medula

Při výcviku psů je využití kořistního pohonu, zejména při výcviku pracovních psů, detekce psů apod., stimulace těchto pevných akčních vzorců, vzhledem k predátorským instinktům psa, klíčem k vytvoření velmi obtížného, ale konzistentního chování, a ve většině případů nezahrnují operantní, klasický, nebo jiný druh kondicionování[Jak odkazovat a odkazovat na shrnutí nebo text]. Zatímco evoluční procesy formovaly tyto pevné akční vzorce, samotné vzorce zůstaly stabilní dostatečně dlouho na to, aby byly formovány dlouhým časovým rozpětím nezbytným pro evoluci kvůli jejich funkci přežití (tj. operantní kondicionování).

Podle zákonů operantního podmiňování jakékoli chování, které je soustavně odměňováno, pokaždé zanikne rychlejším tempem, zatímco přerušované posilující chování vede ke stabilnějším mírám chování, které jsou relativně odolnější vůči vyhynutí. U detekčních psů tedy musí být každé správné chování naznačující „nález“ vždy odměněno tažnou hračkou nebo včasným hodem míčkem za prvotní osvojení chování. Poté jsou zavedeny slábnoucí postupy, při nichž je míra zesílení „ztenčena“ (ne každá reakce je zesílena), přepínání psa na přerušovaný plán zesílení, který je odolnější vůči případům nevyztužení.

Nicméně někteří cvičitelé nyní využívají kořistní pohon k výcviku psích mazlíčků a zjišťují, že dosahují mnohem lepších výsledků v reakcích psů na výcvik, než když používají pouze principy operantního podmiňování[How to reference and link to summary or text], které se podle Skinnera a jeho žáka Kellera Brelanda (který vynalezl trénink klikačů) hroutí, když jsou ve hře silné instinkty.

Biologické koreláty operantního kondicionování

První vědecké studie, které identifikovaly neurony, které reagovaly způsoby, které naznačovaly, že kódují podmíněný stimul, pocházely z práce Rustyho Richardsona a Mahlona deLonga. Ukázaly, že nukleární basalisové neurony, které uvolňují acetylcholin široce v celé mozkové kůře, jsou aktivovány krátce po podmíněném stimulu, nebo po primární odměně, pokud žádný podmíněný stimul neexistuje. Tyto neurony jsou stejně aktivní pro pozitivní i negativní zesilovače a bylo prokázáno, že způsobují plasticitu v mnoha kortikálních oblastech.

Existují také důkazy, že se dopamin aktivuje v podobnou dobu. Dopaminové dráhy kódují pouze pozitivní odměnu, nikoliv averzivní posílení, a mnohem hustěji promítají do oblastí čelní kůry mozkové. Cholinergní projekce jsou naopak husté i v oblastech zadní kůry mozkové, jako je primární zraková kůra.

Doporučujeme:  Punnettovo náměstí

Faktory, které mění účinnost následků

Jak účinný může být následek při modifikaci reakce, bude mít tendenci se zvyšovat nebo snižovat podle různých faktorů. Tyto faktory se mohou vztahovat jak na posilování, tak na trestání následků.

Většina těchto faktorů existuje z biologických důvodů. Biologickým účelem Principu nasycení je udržení homeostázy organismu. Když byl organismus například zbaven cukru, je účinnost chuti cukru jako výztuže vysoká. Nicméně, když organismus dosáhne nebo překročí svou optimální hladinu cukru v krvi, chuť cukru se stává méně účinnou, možná dokonce averzivní.

Principy Okamžitosti a pohotovosti existují z neurochemických důvodů. Když organismus prožije posilující podnět, aktivují se dopaminové dráhy v mozku. Tato síť drah „uvolňuje krátký puls dopaminu na mnoho dendritů, čímž vysílá dosti globální signál k posílení postsynaptických neuronů.“ Díky tomu jsou nedávno aktivované synapse schopny zvýšit svou citlivost na eferentní signály, čímž se zvyšuje pravděpodobnost výskytu pro nedávné reakce předcházející posílení. Tyto reakce jsou statisticky nejpravděpodobnější chování zodpovědné za úspěšné dosažení posílení. Když je však aplikace posílení buď méně okamžitá, nebo méně podmíněná (méně konzistentní), schopnost dopaminu působit na příslušné synapse je snížena.

Variabilita indukovaná vymíráním

Zatímco vyhynutí, je-li prováděno konzistentně v průběhu času, má za následek eventuální pokles nežádoucího chování, v blízké době může subjekt vykazovat to, čemu se říká extinkční výboj. Exinkční výboj často nastane, když proces vyhynutí právě začal. Ten spočívá v náhlém a dočasném zvýšení frekvence odezvy, následovaném eventuálním poklesem a vyhynutím chování cíleného na eliminaci.

Vezměme si například holuba, který byl vyztužen, aby kloval do elektronického tlačítka. Během své tréninkové historie pokaždé, když holub kloval do tlačítka, dostal malé množství ptačího semene jako výztuhu. Takže kdykoliv má pták hlad, klovne do tlačítka, aby dostal potravu. Pokud by však bylo tlačítko vypnuto, hladový holub se nejprve pokusí klovat do tlačítka stejně jako v minulosti. Když se nedostává potravy, pták to pravděpodobně zkusí znovu… a znovu a znovu. Po období horečné aktivity, ve kterém jejich klování nepřináší žádný výsledek, se frekvence klování holuba sníží.

Evoluční výhoda tohoto extinkčního výboje je zřejmá. V přirozeném prostředí by zvíře, které přetrvává v naučeném chování, přestože nevede k okamžitému posílení, mohlo mít ještě šanci vyvolat posilující následky, pokud by se o to pokusilo znovu. Toto zvíře by bylo ve výhodě oproti jinému zvířeti, které se vzdává příliš snadno.

Doporučujeme:  Úvod do učení

Podobnou adaptivní roli plní variabilita vyvolaná vyhynutím. Když začíná vyhynutí, počáteční zvýšení rychlosti odezvy není to jediné, co se může stát. Operantské chování se od reflexů liší v tom, že topografie odezvy (forma odezvy) podléhá mírným odchylkám od jednoho výkonu k druhému. Tyto mírné odchylky mohou zahrnovat malé rozdíly v příslušných specifických pohybech, rozdíly v množství aplikované síly a malé změny v načasování odezvy. Historie vyztužení subjektu je to, co udržuje tyto mírné odchylky stabilní tím, že zachovává úspěšné odchylky místo méně úspěšných odchylek.

Představte si zvonovou křivku. Vodorovná osa by představovala různé možné odchylky pro dané chování. Vertikální osa by představovala pravděpodobnost odezvy v dané situaci. Varianty odezvy uprostřed zvonové křivky, v jejím nejvyšším bodě, jsou nejpravděpodobnější, protože tyto odezvy, podle zkušeností organismu, byly nejúčinnější při vytváření výztuže. Extrémnější formy chování by ležely na dolních koncích křivky, vlevo a vpravo od vrcholu, kde je jejich pravděpodobnost projevu nízká.

Jednoduchým příkladem by byla osoba uvnitř místnosti, která by otevřela dveře, aby mohla odejít. Reakcí by bylo otevření dveří a výztuhou by byla svoboda odejít. Pokaždé, když ta samá osoba otevře ty samé dveře, neotevře dveře pokaždé úplně stejně. Spíše pokaždé otevřou dveře trochu jinak: někdy menší silou, někdy větší silou; někdy jednou rukou, někdy druhou rukou; někdy rychleji, někdy pomaleji. Vzhledem k fyzikálním vlastnostem dveří a jejich kliky existuje určitá škála úspěšných reakcí, které jsou zesíleny.

Nyní si v našem příkladu představte, že se dotyčný pokusí otevřít dveře a ty se ani nehnou. V tomto okamžiku dochází k variabilitě vyvolané vyhynutím. Zvonová křivka pravděpodobných reakcí se začne rozšiřovat a s větší pravděpodobností se budou objevovat i extrémnější formy chování. Dotyčný se nyní může pokusit otevřít dveře s větší silou, opakovaně otáčet klikou, pokoušet se udeřit do dveří ramenem, možná dokonce volat o pomoc nebo vylézt oknem. Takto vyhynutí způsobuje variabilitu chování v naději, že by tyto nové variace mohly být úspěšné. Z tohoto důvodu je variabilita vyvolaná vyhynutím důležitou součástí operantního postupu tvarování.