Neuronové sítě – Dobrá psychoterapie

Zjednodušený pohled na dopřednou umělou neuronovou síť

Biologická neuronová síť se skládá ze skupiny nebo skupin chemicky propojených nebo funkčně spojených neuronů. Jeden neuron může být propojen s mnoha dalšími neurony a celkový počet neuronů a spojení v síti může být rozsáhlý. Spojení, nazývaná synapse, se obvykle vytvářejí z axonů na dendrity, i když jsou možné i dendrodendritické mikroobvody a další spojení. Kromě elektrické signalizace existují i další formy signalizace, které vznikají difuzí neurotransmiterů.

Umělá inteligence a kognitivní modelování se snaží simulovat některé vlastnosti biologických neuronových sítí. Ačkoli jsou si jejich techniky podobné, první z nich má za cíl řešit konkrétní úlohy, zatímco druhá se zaměřuje na vytváření matematických modelů biologických neuronových systémů.

V oblasti umělé inteligence byly umělé neuronové sítě úspěšně použity k rozpoznávání řeči, analýze obrazu a adaptivnímu řízení s cílem vytvořit softwarové agenty (v počítačových hrách a videohrách) nebo autonomní roboty. Většina v současnosti používaných umělých neuronových sítí pro umělou inteligenci je založena na statistických odhadech, klasifikační optimalizaci a teorii řízení.

Oblast kognitivního modelování zahrnuje fyzikální nebo matematické modelování chování neuronálních systémů; od úrovně jednotlivých neuronů (např. modelování křivek odezvy neuronů na podnět) přes úroveň neuronálních klastrů (např. modelování uvolňování a účinků dopaminu v bazálních gangliích) až po celý organismus (např. behaviorální modelování reakce organismu na podnět). Umělá inteligence, kognitivní modelování a neuronové sítě jsou paradigmata zpracování informací inspirovaná způsobem zpracování dat biologickými neuronovými systémy.

Historie analogie neuronové sítě

Zdá se, že v mozku vzniká spontánní řád z decentralizovaných sítí jednoduchých jednotek (neuronů).

Teorie neuronových sítí posloužila jak k lepší identifikaci fungování neuronů v mozku, tak jako základ pro snahy o vytvoření umělé inteligence. Předběžný teoretický základ současných neuronových sítí navrhli nezávisle na sobě Alexander Bain (1873) a William James (1890). V jejich práci byly myšlenky i tělesná aktivita výsledkem interakcí mezi neurony v mozku.

Pro Baina vedla každá aktivita ke spuštění určitého souboru neuronů. Při opakování činností se spojení mezi těmito neurony posilovala. Podle jeho teorie vedlo toto opakování k vytvoření paměti. Obecná vědecká komunita byla v té době k Bainově teorii skeptická, protože vyžadovala, jak se zdálo, nadměrné množství neuronových spojení v mozku. Nyní je zřejmé, že mozek je nesmírně složitý a že stejné mozkové „zapojení“ dokáže zvládnout více problémů a vstupů.

Jamesova teorie byla podobná Bainově, nicméně předpokládal, že vzpomínky a činy jsou výsledkem elektrických proudů tekoucích mezi neurony v mozku. Jeho model, který se zaměřoval na tok elektrických proudů, nevyžadoval pro každou vzpomínku nebo akci individuální neuronové spojení.

C. S. Sherrington (1898) provedl experimenty, aby Jamesovu teorii ověřil. Pouštěl elektrický proud do míchy krys. Sherrington však namísto toho, aby prokázal nárůst elektrického proudu, jak předpokládal James, zjistil, že síla elektrického proudu s časem klesá. Důležité je, že tato práce vedla k objevu konceptu habituace.

McCulloch a Pitts (1943) vytvořili výpočetní model neuronových sítí založený na matematice a algoritmech. Tento model nazvali prahová logika. Tento model připravil půdu pro rozdělení výzkumu neuronových sítí na dva odlišné přístupy. Jeden přístup se zaměřil na biologické procesy v mozku a druhý na aplikaci neuronových sítí v umělé inteligenci.

Koncem 40. let 20. století vytvořil psycholog Donald Hebb hypotézu učení založenou na mechanismu nervové plasticity, která je dnes známá jako Hebbovo učení. Hebbovské učení je považováno za „typické“ pravidlo neřízeného učení a jeho pozdější varianty byly prvními modely dlouhodobé potenciace. Tyto myšlenky se začaly uplatňovat ve výpočetních modelech v roce 1948 s Turingovými stroji typu B.

Farley a Clark (1954) poprvé použili výpočetní stroje, tehdy nazývané kalkulačky, k simulaci Hebbovy sítě na MIT. Další výpočetní stroje pro neuronové sítě vytvořili Rochester, Holland, Habit a Duda (1956).

Rosenblatt (1958) vytvořil perceptron, algoritmus pro rozpoznávání vzorů založený na dvouvrstvé učící se počítačové síti využívající jednoduché sčítání a odčítání. Pomocí matematického zápisu Rosenblatt také popsal obvody, které nebyly v základním perceptronu, jako například obvod exclusive-or, obvod, jehož matematický výpočet mohl být zpracován až poté, co Werbos (1975) vytvořil algoritmus zpětného šíření.

Perceptron je v podstatě lineární klasifikátor pro klasifikaci dat zadaných parametry a výstupní funkcí . Jeho parametry se přizpůsobují pomocí ad hoc pravidla podobného stochastickému sestupu po nejstrmějším gradientu. Protože vnitřní součin je lineární operátor ve vstupním prostoru, může perceptron dokonale klasifikovat pouze soubor dat, pro který jsou různé třídy ve vstupním prostoru lineárně separovatelné, zatímco pro neseparovatelná data často zcela selhává. Ačkoli vývoj tohoto algoritmu zpočátku vyvolal určité nadšení, částečně kvůli jeho zjevnému vztahu k biologickým mechanismům, pozdější zjištění této nedostatečnosti způsobilo, že se od takových modelů upustilo až do zavedení nelineárních modelů do této oblasti.

Výzkum neuronových sítí stagnoval po zveřejnění výzkumu strojového učení Minského a Paperta (1969). Objevili dva klíčové problémy s výpočetními stroji, které zpracovávaly neuronové sítě. První problém spočíval v tom, že jednovrstvé neuronové sítě nebyly schopny zpracovat exkluzivní obvod. Druhým významným problémem bylo, že počítače nebyly dostatečně sofistikované, aby efektivně zvládly dlouhou dobu běhu, kterou vyžadují velké neuronové sítě. Výzkum neuronových sítí se zpomalil, dokud počítače nedosáhly většího výpočetního výkonu. Klíčový význam pro pozdější pokrok měl také algoritmus zpětné propogace, který účinně vyřešil problém exkluzivního nebo (Werbos 1975).

Kognitron (1975) navržený Kunihiko Fukushimou byl ranou vícevrstvou neuronovou sítí s tréninkovým algoritmem. Vlastní struktura sítě a metody používané k nastavení vah propojení se mění od jedné neuronové strategie k druhé, přičemž každá má své výhody a nevýhody. Sítě mohou šířit informace pouze jedním směrem, nebo se mohou odrážet tam a zpět, dokud nedojde k samoaktivaci v uzlu a síť se neusadí v konečném stavu. Schopnost obousměrného toku vstupů mezi neurony/uzly byla vytvořena pomocí adaptivní rezonanční reorie, neokognitronu a Hopfieldovy sítě a specializace těchto uzlových vrstev pro specifické účely byla zavedena prostřednictvím první hybridní sítě.

Paralelní distribuované zpracování se v polovině 80. let stalo populárním pod názvem konekcionismus. Text Rumelharta a McClellanda (1986) poskytl úplný výklad o využití konekcionismu v počítačích pro simulaci nervových procesů.

Znovuobjevení algoritmu zpětného šíření bylo pravděpodobně hlavním důvodem opětovné popularizace neuronových sítí po zveřejnění knihy „Learning Internal Representations by Error Propagation“ v roce 1986 (ačkoli samotné zpětné šíření pochází z roku 1969). Původní síť využívala více vrstev váhových jednotek typu , kde byla sigmoidní funkce nebo logistická funkce, jaká se používá v logistické regresi. Trénování probíhalo formou stochastického sestupu po gradientu. Použití řetězového pravidla diferenciace při odvozování příslušných aktualizací parametrů vede k algoritmu, který zřejmě „zpětně šíří chyby“, odtud také pojmenování. V podstatě se však jedná o formu gradientního sestupu. Určení optimálních parametrů v modelu tohoto typu není triviální a lokální numerické optimalizační metody, jako je gradientní sestup, mohou být citlivé na inicializaci kvůli přítomnosti lokálních minim tréninkového kritéria. V poslední době se sítě se stejnou architekturou jako backpropagation network označují jako vícevrstvé perceptrony. Tento název neklade žádná omezení na typ algoritmu použitého pro učení.

Mozek, neuronové sítě a počítače

Počítačová simulace větvení dendritů pyramidových neuronů.

Neuronové sítě, používané v umělé inteligenci, jsou tradičně považovány za zjednodušené modely neuronového zpracování v mozku, i když vztah mezi tímto modelem a biologickou architekturou mozku je předmětem diskusí, protože není jasné, do jaké míry umělé neuronové sítě odrážejí funkci mozku.

Předmětem současného výzkumu v oblasti výpočetní neurovědy je otázka týkající se stupně složitosti a vlastností, které by měly mít jednotlivé nervové prvky, aby bylo možné reprodukovat něco, co se podobá zvířecímu poznání.

Neuronální kódování se zabývá tím, jak jsou smyslové a jiné informace reprezentovány v mozku neurony. Hlavním cílem studia neuronového kódování je charakterizovat vztah mezi podnětem a individuálními nebo ansámblovými neuronálními odpověďmi a vztah mezi elektrickou aktivitou neuronů v ansámblu. Předpokládá se, že neurony mohou kódovat jak digitální, tak analogové informace.

Neuronové sítě a umělá inteligence

Neuronová síť (NN), v případě umělých neuronů nazývaná umělá neuronová síť (ANN) nebo simulovaná neuronová síť (SNN), je vzájemně propojená skupina přirozených nebo umělých neuronů, která využívá matematický nebo výpočetní model pro zpracování informací založený na konekcionistickém přístupu k výpočtu. Ve většině případů je ANN adaptivní systém, který mění svou strukturu na základě vnějších nebo vnitřních informací, které sítí proudí.

Z praktičtějšího hlediska jsou neuronové sítě nelineární statistické nástroje pro modelování dat nebo rozhodování. Lze je použít k modelování složitých vztahů mezi vstupy a výstupy nebo k hledání vzorů v datech.

Zdá se však, že paradigma neuronových sítí – tj. zdůraznění implicitního, nikoli explicitního učení – odpovídá spíše určitému druhu přirozené inteligence než tradiční umělé inteligenci založené na symbolech, která by naopak zdůrazňovala učení založené na pravidlech.

Umělá neuronová síť zahrnuje síť jednoduchých zpracovávajících prvků (umělých neuronů), které mohou vykazovat složité globální chování, jež je dáno propojením mezi zpracovávajícími prvky a parametry prvků. Umělé neurony poprvé navrhli v roce 1943 neurofyziolog Warren McCulloch a logik Walter Pitts, kteří poprvé spolupracovali na Chicagské univerzitě.

Jedním z klasických typů umělých neuronových sítí je rekurentní Hopfieldova síť.

V modelu neuronové sítě jsou jednoduché uzly (které se mohou nazývat různými názvy, například „neurony“, „neurodes“, „Processing Elements“ (PE) a „units“) propojeny do sítě uzlů – odtud termín „neuronová síť“. I když neuronová síť nemusí být sama o sobě adaptivní, její praktické využití přichází s algoritmy určenými ke změně síly (vah) spojů v síti tak, aby vznikl požadovaný tok signálu.

V moderních softwarových implementacích umělých neuronových sítí byl přístup inspirovaný biologií víceméně opuštěn ve prospěch praktičtějšího přístupu založeného na statistice a zpracování signálů. V některých z těchto systémů se neuronové sítě nebo jejich části (např. umělé neurony) používají jako součásti větších systémů, které kombinují adaptivní i neadaptivní prvky.

Koncept neuronové sítě zřejmě poprvé navrhl Alan Turing ve svém článku „Intelligent Machinery“ z roku 1948.

Aplikace přirozených a umělých neuronových sítí

Užitečnost modelů umělých neuronových sítí spočívá v tom, že je lze použít k odvození funkce z pozorování a také k jejímu využití. Nekontrolované neuronové sítě lze také použít k učení reprezentací vstupu, které zachycují významné charakteristiky rozdělení vstupu, např. viz Boltzmannův stroj (1983) a nověji algoritmy hlubokého učení, které se mohou implicitně naučit distribuční funkci pozorovaných dat. Učení v neuronových sítích je užitečné zejména v aplikacích, kde je vzhledem ke složitosti dat nebo úlohy ruční návrh takových funkcí nepraktický.

Mezi oblasti použití ANN patří identifikace a řízení systémů (řízení vozidel, řízení procesů), hraní her a rozhodování (vrhcáby, šachy, závody), rozpoznávání vzorů (radarové systémy, identifikace obličejů, rozpoznávání objektů), rozpoznávání sekvencí (gesta, řeč, rozpoznávání ručně psaného textu), lékařská diagnostika, finanční aplikace, dolování dat (neboli objevování znalostí v databázích, „KDD“), vizualizace a filtrování e-mailového spamu.

Neuronové sítě a neurověda

Teoretická a výpočetní neurověda je obor zabývající se teoretickou analýzou a výpočetním modelováním biologických nervových systémů.
Vzhledem k tomu, že nervové systémy úzce souvisejí s kognitivními procesy a chováním, je tento obor úzce spjat s kognitivním a behaviorálním modelováním.

Cílem tohoto oboru je vytvořit modely biologických nervových systémů, aby bylo možné pochopit, jak biologické systémy fungují. Aby tohoto porozumění dosáhli, snaží se neurovědci vytvořit spojení mezi pozorovanými biologickými procesy (daty), biologicky věrohodnými mechanismy neuronového zpracování a učení (modely biologických neuronových sítí) a teorií (statistická teorie učení a teorie informace).

Používá se mnoho modelů definovaných na různých úrovních abstrakce a modelujících různé aspekty nervových systémů. Sahají od modelů krátkodobého chování jednotlivých neuronů přes modely dynamiky neuronových obvodů vznikajících z interakcí mezi jednotlivými neurony až po modely chování vznikající z abstraktních neuronových modulů, které představují kompletní subsystémy. Patří sem modely dlouhodobé a krátkodobé plasticity neuronových systémů a jejího vztahu k učení a paměti, a to od úrovně jednotlivých neuronů až po úroveň systému.

Tento článek je označen od června 2010.

Zatímco zpočátku se výzkum zabýval především elektrickými vlastnostmi neuronů, v posledních letech je obzvláště důležitou součástí zkoumání role neuromodulátorů, jako jsou dopamin, acetylcholin a serotonin, na chování a učení.

Biofyzikální modely, jako je teorie BCM, jsou důležité pro pochopení mechanismů synaptické plasticity a nacházejí uplatnění jak v informatice, tak v neurovědách. Probíhá výzkum v oblasti porozumění výpočetním algoritmům používaným v mozku, přičemž v poslední době se objevily některé biologické důkazy pro radiální bázové sítě a neuronovou zpětnou propagaci jako mechanismy zpracování dat.

Byla vytvořena výpočetní zařízení CMOS pro biofyzikální simulace i neuromorfní výpočty. Nejnovější snahy slibují vytvoření nanozařízení pro velmi rozsáhlé analýzy hlavních komponent a konvoluce. Pokud budou tyto snahy úspěšné, mohly by zahájit novou éru neuronových výpočtů, které jsou o krok dále než digitální výpočty, protože závisí na učení, nikoli na programování, a protože jsou v zásadě analogové, nikoli digitální, i když první instance mohou být ve skutečnosti s digitálními zařízeními CMOS.

Tento článek je označen od srpna 2011.

Základní architektura se skládá ze tří typů neuronových vrstev: vstupní, skryté a výstupní. V sítích typu feed-forward probíhá tok signálu od vstupních jednotek k výstupním, a to striktně ve směru feed-forward. Zpracování dat může přesahovat více vrstev jednotek, ale nejsou přítomna žádná zpětnovazební spojení. Rekurentní sítě obsahují zpětnovazební spojení. Na rozdíl od sítí typu feed-forward jsou důležité dynamické vlastnosti sítě. V některých případech aktivační hodnoty jednotek procházejí relaxačním procesem, takže se síť vyvine do stabilního stavu, ve kterém se tyto aktivace již nemění.

V jiných aplikacích jsou změny aktivačních hodnot výstupních neuronů významné, takže dynamické chování tvoří výstup sítě. K dalším architekturám neuronových sítí patří adaptivní mapy rezonanční teorie a kompetitivní sítě.

A. K. Dewdney, bývalý sloupkař časopisu Scientific American, v roce 1997 napsal: „Neuronové sítě sice řeší několik hračičkovských problémů, ale jejich výpočetní schopnosti jsou tak omezené, že mě překvapuje, že je někdo bere vážně jako obecný nástroj pro řešení problémů.“ (Dewdney, str. 82)

Argumenty proti Dewdneyho stanovisku spočívají v tom, že neuronové sítě byly úspěšně použity k řešení mnoha složitých a různorodých úloh, od autonomního řízení letadel až po odhalování podvodů s kreditními kartami [citace potřebná].

Dewdneyho výroky o neuronových sítích komentoval technologický spisovatel Roger Bridgman:

Navzdory svému důraznému prohlášení, že věda není technologie, se zdá, že Dewdney zde pranýřuje neuronové sítě jako špatnou vědu, zatímco většina těch, kteří je vymýšlejí, se jen snaží být dobrými inženýry. Nečitelná tabulka, kterou by dokázal přečíst užitečný stroj, by přesto stála za to.

V reakci na tento druh kritiky je třeba poznamenat, že ačkoli je pravda, že analyzovat to, co se naučila umělá neuronová síť, je obtížné, je to mnohem snazší než analyzovat to, co se naučila biologická neuronová síť. Kromě toho vědci zabývající se zkoumáním algoritmů učení neuronových sítí postupně odhalují obecné principy, které umožňují učícímu se stroji být úspěšný. Například Bengio a LeCun (2007) napsali článek týkající se lokálního vs. nelokálního učení a také mělké vs. hluboké architektury .

Další kritika zazněla od zastánců hybridních modelů (kombinujících neuronové sítě a symbolické přístupy). Obhajují prolínání těchto dvou přístupů a věří, že hybridní modely mohou lépe zachytit mechanismy lidské mysli (Sun a Bookman, 1990).