Zjednodušený pohled na napájecí umělou neuronovou síť
Biologická neuronová síť se skládá ze skupiny nebo skupin chemicky spojených nebo funkčně spojených neuronů. Jeden neuron může být spojen s mnoha dalšími neurony a celkový počet neuronů a spojení v síti může být rozsáhlý. Spojení, nazývaná synapse, se obvykle tvoří z axonů na dendrity, ačkoli dendrodendritické mikroobvody a další spojení jsou možná. Kromě elektrické signalizace existují další formy signalizace, které vznikají z difúze neurotransmiterů.
Umělá inteligence a kognitivní modelování se snaží simulovat některé vlastnosti biologických neuronových sítí. Zatímco první z nich si je ve svých technikách podobná, druhá si klade za cíl řešit konkrétní úlohy, zatímco druhá si klade za cíl budovat matematické modely biologických neuronových systémů.
V oblasti umělé inteligence byly umělé neuronové sítě úspěšně využity k rozpoznávání řeči, analýze obrazu a adaptivnímu ovládání s cílem zkonstruovat softwarové agenty (v počítačích a videohrách) nebo autonomní roboty. Většina v současnosti využívaných umělých neuronových sítí pro umělou inteligenci je založena na statistických odhadech, optimalizaci klasifikace a teorii ovládání.
Kognitivní modelovací pole zahrnuje fyzikální nebo matematické modelování chování nervových systémů; od individuální nervové úrovně (např. modelování křivek hrotové odezvy neuronů až po stimulaci), přes úroveň nervových klastrů (např. modelování uvolňování a účinků dopaminu v bazálních gangliích) až po úplný organismus (např. behaviorální modelování reakce organismu na stimuly). Umělá inteligence, kognitivní modelování a neuronové sítě jsou paradigmata zpracování informací inspirovaná způsobem, jakým biologické nervové systémy zpracovávají data.
Historie analogie neuronové sítě
V mozku se zdá, že spontánní řád vzniká z decentralizovaných sítí jednoduchých jednotek (neuronů).
Teorie neuronových sítí posloužila jak k lepšímu určení toho, jak fungují neurony v mozku, tak k vytvoření základu pro úsilí o vytvoření umělé inteligence. Předběžný teoretický základ pro současné neuronové sítě nezávisle navrhli Alexander Bain (1873) a William James (1890). Myšlenky i tělesná aktivita ve své práci vycházely z interakcí mezi neurony v mozku.
Pro Baina každá činnost vedla k vystřelení určité množiny neuronů. Když se činnosti opakovaly, spojení mezi těmito neurony se posilovalo. Podle jeho teorie právě toto opakování vedlo ke vzniku paměti. Obecná vědecká obec byla v té době k Bainově teorii skeptická, protože vyžadovala zřejmě neúměrný počet nervových spojení v mozku. Dnes je zřejmé, že mozek je neobyčejně složitý a že stejné mozkové „dráty“ zvládnou více problémů a vstupů.
Jamesova teorie byla podobná Bainově, nicméně naznačil, že vzpomínky a akce vycházejí z elektrických proudů proudících mezi neurony v mozku. Jeho model se zaměřením na tok elektrických proudů nevyžadoval individuální nervová spojení pro každou paměť nebo akci.
C. S. Sherrington (1898) provedl experimenty, aby vyzkoušel Jamesovu teorii. Vedl elektrické proudy dolů po míchách potkanů. Avšak místo toho, aby demonstroval zvýšení elektrického proudu, jak předpokládal James, Sherrington zjistil, že síla elektrického proudu klesá, jak testování v průběhu času pokračovalo. Důležité je, že tato práce vedla k objevu konceptu zvykání.
McCulloch a Pitts (1943) vytvořili výpočetní model pro neuronové sítě založený na matematice a algoritmech. Nazvali tento model prahovou logikou. Model připravil cestu pro výzkum neuronových sítí, aby se rozdělil na dva odlišné přístupy. Jeden přístup se zaměřoval na biologické procesy v mozku a druhý na aplikaci neuronových sítí na umělou inteligenci.
Na konci čtyřicátých let vytvořil psycholog Donald Hebb hypotézu učení založenou na mechanismu neuronové plasticity, která je dnes známá jako Hebbovo učení. Hebbovo učení je považováno za „typické“ pravidlo učení bez dozoru a jeho pozdější varianty byly prvními modely pro dlouhodobé potenciace. Tyto myšlenky se začaly aplikovat na výpočetní modely v roce 1948 pomocí Turingových strojů typu B.
Farley a Clark (1954) nejprve použili výpočetní stroje, tehdy nazývané kalkulačky, k simulaci hebbiánské sítě na MIT. Další výpočetní stroje neuronové sítě vytvořili Rochester, Holland, Habit a Duda (1956).
Rosenblatt (1958) vytvořil perceptron, algoritmus pro rozpoznávání vzorů založený na dvouvrstvé učící se počítačové síti pomocí jednoduchého sčítání a odčítání. S matematickou notací Rosenblatt také popsal obvody, které nejsou v základním perceptronu, jako například obvod exclusive-or, jehož matematický výpočet nemohl být zpracován, dokud algoritmus backpropagation nebyl vytvořen Werbosem (1975).
perceptron je v podstatě lineární klasifikátor pro klasifikaci dat specifikovaných parametry a výstupní funkcí . Jeho parametry jsou upraveny ad-hoc pravidlem podobným stochastickému nejstrmějšímu gradientnímu sestupu. Protože vnitřní součin je lineární operátor ve vstupním prostoru, perceptron dokáže dokonale klasifikovat pouze množinu dat, pro která jsou různé třídy lineárně oddělitelné ve vstupním prostoru, zatímco u neoddělitelných dat často selže úplně. Zatímco vývoj algoritmu zpočátku vyvolal určité nadšení, částečně kvůli jeho zdánlivému vztahu k biologickým mechanismům, pozdější odhalení této nedostatečnosti způsobilo, že tyto modely byly opuštěny až do zavedení nelineárních modelů do terénu.
Výzkum neuronových sítí stagnoval po publikaci výzkumu strojového učení od Minskyho a Paperta (1969). Objevili dva klíčové problémy s výpočetními stroji, které zpracovávaly neuronové sítě. Prvním problémem bylo, že jednovrstvé neuronové sítě nebyly schopny zpracovat exkluzivní nebo obvod. Druhým významným problémem bylo, že počítače nebyly dostatečně sofistikované, aby efektivně zvládly dlouhodobý běh času, který velké neuronové sítě vyžadovaly. Výzkum neuronových sítí zpomaloval, dokud počítače nedosáhly většího výpočetního výkonu. Klíčovým v pozdějších pokrocích byl také zpětný propogační algoritmus, který efektivně vyřešil problém exkluzivní nebo (Werbos 1975).
Kognitron (1975) navržený Kunihikem Fukušimou byla raná vícevrstvá neuronová síť s tréninkovým algoritmem. Skutečná struktura sítě a metody použité k nastavení propojovacích vah se mění z jedné neuronové strategie na druhou, každá má své výhody a nevýhody. Sítě mohou šířit informace pouze jedním směrem, nebo mohou skákat tam a zpět, dokud nenastane samoaktivace v uzlu a síť se neusadí do konečného stavu. Schopnost obousměrného toku vstupů mezi neurony/uzly byla vytvořena s adaptivní rezonanční reory, neokognitonem a Hopfieldovou sítí, a specializace těchto uzlových vrstev pro specifické účely byla zavedena prostřednictvím první hybridní sítě.
Paralelní distribuované zpracování poloviny 80. let se stalo populárním pod názvem konektonismus. Text Rumelharta a McClellanda (1986) poskytl úplnou expozici o využití konektonismu v počítačích k simulaci nervových procesů.
Znovuobjevení algoritmu zpětného šíření bylo pravděpodobně hlavním důvodem repopularizace neuronových sítí po publikaci „Learning Internal Representations by Error Propagation“ v roce 1986 (ačkoli samotné zpětné šíření pochází z roku 1969). Původní síť využívala více vrstev jednotek váhy a součtu typu , kde byla funkce sigmoid nebo logistická funkce, jako se používá v logistické regresi. Výcvik se prováděl formou stochastického gradientního sestupu. Použití řetězového pravidla diferenciace při odvozování příslušných parametrových aktualizací vede k algoritmu, který zřejmě „zpětně šíří chyby“, proto nomenklatura. Nicméně se v podstatě jedná o formu gradientního sestupu. Určení optimálních parametrů v modelu tohoto typu není triviální a lokální metody numerické optimalizace, jako je gradientní sestup, mohou být citlivé na inicializaci kvůli přítomnosti lokálních minim tréninkového kritéria. V poslední době se sítě se stejnou architekturou jako backpropagační síť označují jako vícevrstvé perceptrony. Tento název nijak neomezuje typ algoritmu používaného pro učení.
Mozek, neuronové sítě a počítače
Počítačová simulace větvící se architektury dendritů pyramidových neuronů.
Neurální sítě, jak jsou používány v umělé inteligenci, byly tradičně považovány za zjednodušené modely nervového zpracování v mozku, i když vztah mezi tímto modelem a mozkovou biologickou architekturou je diskutován, protože není jasné, do jaké míry umělé neuronové sítě zrcadlí mozkovou funkci.
Předmětem současného výzkumu ve výpočetní neurovědě je otázka míry složitosti a vlastností, které by jednotlivé nervové elementy měly mít, aby reprodukovaly něco, co připomíná poznávání zvířat.
Neurální kódování se zabývá tím, jak jsou v mozku neurony zastoupeny smyslové a jiné informace. Hlavním cílem studia neurálního kódování je charakterizovat vztah mezi podnětem a individuálními nebo skupinovými neuronovými reakcemi a vztah mezi elektrickou aktivitou neuronů v souboru. Předpokládá se, že neurony mohou kódovat jak digitální, tak analogové informace.
Neurální sítě a umělá inteligence
Neuronová síť (NN), v případě umělých neuronů nazývaná umělá neuronová síť (ANN) nebo simulovaná neuronová síť (SNN), je propojená skupina přírodních nebo umělých neuronů, která používá matematický nebo výpočetní model pro zpracování informací založený na konektionistickém přístupu k výpočtům. Ve většině případů je ANN adaptivní systém, který mění svou strukturu na základě externích nebo interních informací, které proudí sítí.
Praktičtěji řečeno, neuronové sítě jsou nelineární nástroje pro modelování statistických dat nebo rozhodování. Mohou být použity k modelování složitých vztahů mezi vstupy a výstupy nebo k hledání vzorů v datech.
Nicméně paradigma neuronových sítí – tj. implicitní, nikoliv explicitní, zdůrazňuje se učení – spíše odpovídá nějakému druhu přirozené inteligence než tradiční umělé inteligenci založené na symbolech, která by místo toho zdůrazňovala učení založené na pravidlech.
Umělá neuronová síť zahrnuje síť jednoduchých zpracovatelských prvků (umělých neuronů), které mohou vykazovat komplexní globální chování, určené spojitostmi mezi zpracovatelskými prvky a parametry prvků. Umělé neurony poprvé navrhli v roce 1943 neurofyziolog Warren McCulloch a logik Walter Pitts, který poprvé spolupracoval na univerzitě v Chicagu.
Klasickým typem umělé neuronové sítě je opakující se Hopfieldova síť.
V modelu neuronové sítě jsou jednoduché uzly (které mohou být nazývány několika jmény, včetně „neurony“, „neurody“, „Zpracovatelské prvky“ (PE) a „jednotky“) spojeny dohromady a vytvářejí síť uzlů – odtud termín „neuronová síť“. Zatímco neuronová síť nemusí být sama o sobě adaptivní, její praktické využití přichází s algoritmy navrženými tak, aby měnily sílu (váhy) spojení v síti a vytvářely požadovaný tok signálu.
V moderních softwarových implementacích umělých neuronových sítí byl přístup inspirovaný biologií víceméně opuštěn pro praktičtější přístup založený na statistice a zpracování signálů. V některých z těchto systémů jsou neuronové sítě nebo části neuronových sítí (například umělé neurony) používány jako komponenty ve větších systémech, které kombinují adaptivní i nepřizpůsobivé prvky.
Pojem neuronové sítě byl zřejmě poprvé navržen Alanem Turingem v jeho studii z roku 1948 „Intelligent Machinery“.
Aplikace přírodních a umělých neuronových sítí
Užitečnost modelů umělých neuronových sítí spočívá v tom, že mohou být použity k odvození funkce z pozorování a také k jejímu použití. Nesledované neuronové sítě mohou být také použity k naučení se reprezentací vstupu, které zachycují hlavní charakteristiky distribuce vstupu, např. viz Boltzmannův stroj (1983) a v poslední době algoritmy hlubokého učení, které se mohou implicitně naučit distribuční funkci pozorovaných dat. Učení v neuronových sítích je zvláště užitečné v aplikacích, kde složitost dat nebo úlohy činí návrh takových funkcí ručně nepraktickým.
Oblasti použití ANN zahrnují identifikaci a ovládání systému (ovládání vozidla, řízení procesů), hraní her a rozhodování (vrhcáby, šachy, závody), rozpoznávání vzorů (radarové systémy, identifikace obličeje, rozpoznávání objektů), rozpoznávání sekvencí (gesto, řeč, vlastnoruční rozpoznávání textu), lékařskou diagnózu, finanční aplikace, dolování dat (nebo objevování znalostí v databázích, „KDD“), vizualizaci a filtrování e-mailového spamu.
Neurální sítě a neurověda
Teoretická a výpočetní neurověda je obor zabývající se teoretickou analýzou a výpočetním modelováním biologických nervových systémů.
Vzhledem k tomu, že nervové systémy jsou úzce spjaty s kognitivními procesy a chováním, je tento obor úzce spjat s kognitivním a behaviorálním modelováním.
Cílem oboru je vytvořit modely biologických nervových systémů s cílem porozumět tomu, jak biologické systémy fungují. Pro získání tohoto porozumění se neurovědci snaží vytvořit vazbu mezi pozorovanými biologickými procesy (daty), biologicky věrohodnými mechanismy pro nervové zpracování a učení (modely biologických nervových sítí) a teorií (teorie statistického učení a teorie informace).
Používá se mnoho modelů, které jsou definovány na různých úrovních abstrakce a modelují různé aspekty nervových systémů. Sahají od modelů krátkodobého chování jednotlivých neuronů přes modely dynamiky nervových obvodů vznikající z interakcí mezi jednotlivými neurony až po modely chování vznikající z abstraktních nervových modulů, které představují úplné subsystémy. Patří mezi ně modely dlouhodobé a krátkodobé plasticity nervových systémů a jejich vztahu k učení a paměti, od jednotlivých neuronů až po systémovou úroveň.
Tento článek je označen od června 2010.
Zatímco zpočátku se výzkum zabýval převážně elektrickými vlastnostmi neuronů, v posledních letech je obzvláště důležitou součástí výzkumu zkoumání role neuromodulátorů, jako jsou dopamin, acetylcholin a serotonin, v chování a učení.
Biofyzikální modely, jako je teorie BCM, byly důležité pro pochopení mechanismů synaptické plasticity a měly uplatnění jak v informatice, tak v neurovědě. Pokračuje výzkum v pochopení výpočetních algoritmů používaných v mozku, přičemž některé nedávné biologické důkazy pro radiální bázové sítě a neurální zpětné šíření jsou mechanismy pro zpracování dat.
V CMOS byla vytvořena výpočetní zařízení jak pro biofyzikální simulaci, tak pro neuromorfní výpočty. Novější snahy jsou příslibem pro vytváření nanozařízení pro analýzu a konvoluci hlavních komponent ve velmi velkém měřítku. Pokud budou úspěšné, mohly by tyto snahy zahájit novou éru neurálního počítání, které je krokem za digitálním počítáním, protože závisí spíše na učení než na programování a protože je v zásadě analogové než digitální, i když první instance mohou být ve skutečnosti s digitálními zařízeními CMOS.
Tento článek je označen od srpna 2011.
Základní architektura se skládá ze tří typů neuronových vrstev: vstupní, skryté a výstupní. Ve výkupních sítích je tok signálu od vstupu k výstupním jednotkám, striktně ve výkupním směru. Zpracování dat může probíhat přes více vrstev jednotek, ale nejsou přítomna žádná zpětnovazební spojení. Opakující se sítě obsahují zpětnovazební spojení. Oproti výkupním sítím jsou důležité dynamické vlastnosti sítě. V některých případech projdou aktivační hodnoty jednotek relaxačním procesem tak, že se síť vyvine do stabilního stavu, ve kterém se tyto aktivace již nemění.
V jiných aplikacích jsou změny aktivačních hodnot výstupních neuronů významné, takže dynamické chování představuje výstup sítě. Jiné architektury neuronových sítí zahrnují mapy adaptivní rezonanční teorie a kompetitivní sítě.
A. K. Dewdney, bývalý komentátor časopisu Scientific American, v roce 1997 napsal: „I když neuronové sítě řeší několik problémů s hračkami, jejich výpočetní schopnosti jsou tak omezené, že jsem překvapen, že je někdo bere vážně jako obecný nástroj pro řešení problémů.“ (Dewdney, s. 82)
Argumenty proti Dewdneyho pozici jsou, že neuronové sítě byly úspěšně použity k řešení mnoha složitých a různorodých úkolů, od autonomně létajících letadel až po odhalování podvodů s kreditními kartami [citace nutná].
Technolog Roger Bridgman komentoval Dewdneyho výroky o neuronových sítích:
Navzdory jeho důraznému prohlášení, že věda není technologie, se zdá, že Dewdney zde pranýřuje neuronové sítě jako špatnou vědu, když většina těch, kteří je vymýšlejí, se jen snaží být dobrými inženýry. Nečitelná tabulka, kterou by užitečný stroj dokázal přečíst, by stále stála za to.
V reakci na tento druh kritiky je třeba poznamenat, že ačkoli je pravda, že analyzovat to, co se naučila umělá neuronová síť, je obtížné, je to mnohem jednodušší než analyzovat to, co se naučila biologická neuronová síť. Kromě toho výzkumníci, kteří se zabývají zkoumáním učebních algoritmů pro neuronové sítě, postupně odhalují obecné principy, které umožňují, aby byl učební stroj úspěšný. Například Bengio a LeCun (2007) napsali článek o místním vs ne-místním učení, stejně jako o mělké vs hluboké architektuře .
Některé další kritiky přišly od zastánců hybridních modelů (kombinujících neuronové sítě a symbolické přístupy). Obhajují propojení těchto dvou přístupů a věří, že hybridní modely mohou lépe zachytit mechanismy lidské mysli (Sun and Bookman, 1990).