Rozpoznávání vizuálních objektů

Tento článek je o vizuálním rozpoznávání objektů v kognitivní neurovědě.

Rozpoznání objektu je schopnost vnímat fyzikální vlastnosti objektu (jako je tvar, barva a textura) a aplikovat sémantické atributy na objekt, což zahrnuje pochopení jeho použití, předchozí zkušenosti s objektem a to, jak souvisí s ostatními.

Základní fáze rozpoznávání objektů

Jeden model rozpoznávání objektů, založený na neuropsychologických důkazech, poskytuje informace, které nám umožňují rozdělit proces do čtyř různých fází.

Je třeba poznamenat, že v rámci těchto fází existují konkrétnější procesy, které se odehrávají za účelem doplnění různých složek zpracování. Kromě toho jiné stávající modely navrhují integrační hierarchie (shora dolů a zdola nahoru), stejně jako paralelní zpracování, na rozdíl od této obecné hierarchie zdola nahoru.

Hierarchické zpracování rozpoznávání

Zpracování vizuálního rozpoznávání bylo obvykle vnímáno jako hierarchie zdola nahoru, v níž jsou informace zpracovávány postupně se vzrůstající složitostí, kde kortikální procesory nižší úrovně, jako je primární zraková kůra, jsou na dně hierarchie zpracování a kortikální procesory vyšší úrovně, jako je inferotemporální kůra (IT), jsou na vrcholu, kde je rozpoznávání usnadněno. Nejvíce uznávanou hierarchickou teorií zdola nahoru je teorie vidění Davida Marra. Naopak stále populárnější teorií zpracování rozpoznávání je teorie zpracování shora dolů. Jeden model, navržený Mošem Barem (2003), popisuje „zkratkovou“ metodu, při níž jsou odesílány rané vizuální vstupy, částečně analyzovány, z rané zrakové kůry do prefrontální kůry (PFC). Možné interpretace hrubého vizuálního vstupu jsou generovány v PFC a poté odesílány do inferotemporální kůry mozkové (IT) a následně aktivují relevantní reprezentace objektů, které jsou pak začleněny do pomalejšího procesu zdola nahoru. Tato „zkratka“ má minimalizovat množství reprezentací objektů potřebných pro shodu, a tím usnadnit rozpoznávání objektů. Studie lézí podpořily tento návrh zjištěními pomalejší doby odezvy u jedinců s lézemi PFC, což naznačuje použití pouze zpracování zdola nahoru.

Objektová konstanta a teorie rozpoznávání objektů

Významným aspektem rozpoznávání objektu je konstanta objektu: schopnost rozpoznat objekt v různých podmínkách zobrazení. Tyto různé podmínky zahrnují orientaci objektu, osvětlení a variabilitu objektu (velikost, barva a další rozdíly v rámci kategorií). Aby vizuální systém dosáhl konstanty objektu, musí být schopen získat shodnost v popisu objektu v různých úhlech pohledu a v retinálních popisech. Bylo vytvořeno několik teorií, které poskytují přehled o tom, jak lze dosáhnout konstanty objektu pro účely rozpoznávání objektu, včetně teorií pohledu-invariantních, pohledu-závislých a více pohledů.

Viewpoint-Invariant Theories

Výhledově invariantní teorie naznačují, že rozpoznávání objektů je založeno na strukturních informacích, jako jsou jednotlivé části, což umožňuje, aby rozpoznávání probíhalo bez ohledu na úhel pohledu objektu. Podle toho je rozpoznávání možné z jakéhokoli úhlu pohledu, protože jednotlivé části objektu mohou být otočeny tak, aby odpovídaly jakémukoliv konkrétnímu pohledu. Tato forma analytického rozpoznávání vyžaduje málo paměti, protože je třeba zakódovat pouze strukturální části, což může prostřednictvím vzájemných vztahů těchto částí a mentální rotace vytvářet vícenásobné reprezentace objektů. Proto není v paměti vyžadováno ukládání vícenásobných úhlů pohledu objektů.

Tento model, navržený Marrem a Nišiharou (1978), uvádí, že rozpoznání objektu je dosaženo porovnáním 3D modelových reprezentací získaných z vizuálního objektu s 3D modelovými reprezentacemi uloženými v paměti. 3D modelové reprezentace získané z objektu jsou tvořeny první identifikací konkávností objektu, které oddělují podnět na jednotlivé části. Poté se zjistí osa každé jednotlivé části objektu. Identifikace hlavní osy objektu pomáhá v normalizačním procesu prostřednictvím mentální rotace, která je nutná, protože v paměti je uložen pouze kanonický popis objektu. Rozpoznání je získáno, když je pozorovaný objekt mentálně otočen tak, aby odpovídal uloženému kanonickému popisu.

Obrázek 1. Tento obrázek, vytvořený na základě Biedermanovy (1987) Uznání pomocí teorie komponent, je příkladem toho, jak lze objekty rozdělit na geony.

Rozšíření Marrova a Nišiharova modelu, teorie rozpoznávání komponent, navržené Biedermanem (1987), navrhuje, aby vizuální informace získané z objektu byly rozděleny do jednoduchých geometrických komponent, jako jsou bloky a válce, také známé jako „geony“ (geometrické ionty), a pak byly spárovány s nejpodobnější reprezentací objektu, která je uložena v paměti, aby byla zajištěna identifikace objektu (viz obrázek 1).

Doporučujeme:  Wechslerův individuální test

Teorie závislé na úhlu pohledu

Teorie závislé na úhlu pohledu naznačují, že rozpoznávání objektů je ovlivněno úhlem pohledu, ze kterého je viděno, což znamená, že objekty viděné v nových úhlech pohledu snižují přesnost a rychlost identifikace objektu. Tato teorie rozpoznávání je založena spíše na holističtějším systému než na částech, což naznačuje, že objekty jsou uloženy v paměti s více úhly pohledu a úhly. Tato forma rozpoznávání vyžaduje hodně paměti, protože každý úhel pohledu musí být uložen. Přesnost rozpoznání také závisí na tom, jak známé je pozorované hledisko objektu.

Tato teorie navrhuje, aby rozpoznávání objektů spočívalo v průhledovém kontinuu, kde je každý úhel pohledu rekrutován pro různé typy rozpoznávání. V jednom extrému tohoto kontinua jsou mechanismy závislé na úhlu pohledu používány pro rozlišování v rámci kategorií, zatímco v druhém extrému jsou mechanismy invariantní na úhlu pohledu používány pro kategorizaci objektů.

Dorzální proud je zobrazen zeleně a ventrální proud fialově.

Dorzální a ventrální proud

Vizuální zpracování objektů v mozku lze rozdělit na dvě cesty zpracování: dorzální proud (jak/kde), který se rozprostírá od zrakové kůry k parietálním lalokům a ventrálnímu proudu (co), který se rozprostírá od zrakové kůry k inferotemporální kůře (IT). Existenci těchto dvou oddělených cest vizuálního zpracování poprvé navrhli Ungerleider a Mishkin (1982), kteří na základě svých studií lézí navrhli, že se dorzální proud podílí na zpracování vizuálních prostorových informací, jako je lokalizace objektů (kde), a ventrální proud se podílí na zpracování vizuálních identifikačních informací objektů (co). Od tohoto původního návrhu se alternativně navrhuje, aby se dorzální dráha označovala jako „Jak“ dráha, protože zde zpracovávaná vizuální prostorová informace nám poskytuje informace o tom, jak interagovat s objekty Pro účely rozpoznávání objektů je nervové zaměření na ventrální proud.

Funkční specializace ve ventrálním proudu

V rámci ventrálního proudu byly ve studiích funkčního zobrazování pozorovány různé oblasti navrhované funkční specializace. Oblasti mozku, u nichž se nejčastěji zjišťuje funkční specializace, jsou Fusiform Face Area (FFA), která vykazuje zvýšenou aktivaci obličeje ve srovnání s objekty, Parahippocampal Place Area (PPA) pro scény vs. objekty, Extrastriate Body Area (EBA) pro části těla vs. objekty, MT+/V5 pro pohyblivé podněty vs. statické podněty a Lateral Occipital Complex (LOC) pro rozlišitelné tvary vs. míchané podněty. (Viz také: Neurální zpracování pro jednotlivé kategorie objektů)

Strukturální zpracování: Laterální okcipitální komplex

Bylo zjištěno, že Laterální okcipitální komplex (LOC) je obzvláště důležitý pro rozpoznávání objektů na úrovni percepční struktury. Ve studii fMRI související s událostmi, která zkoumala adaptaci neuronů aktivovaných při vizuálním zpracování objektů, bylo zjištěno, že podobnost tvaru objektu je nezbytná pro následnou adaptaci v LOC, ale specifické rysy objektu, jako jsou hrany a obrysy, nikoli. To naznačuje, že aktivace v LOC představuje informace o tvaru objektu vyšší úrovně a nikoli jednoduché rysy objektu. V související studii fMRI naznačuje aktivace LOC, k níž došlo bez ohledu na vizuální podněty prezentovaného objektu, jako je pohyb, textura nebo kontrasty jasu, že se různé vizuální podněty nízké úrovně používané k definování objektu sbíhají v „oblastech souvisejících s objektem“, aby napomohly procesu vnímání a rozpoznávání. Je třeba poznamenat, že žádná ze zmíněných informací o tvaru objektu vyšší úrovně zřejmě neposkytuje sémantické informace o objektu, protože LOC ukazuje neuronovou reakci na různé formy včetně neznámých, abstraktních objektů.

Další experimenty navrhly, že LOC se skládá z hierarchického systému pro selektivitu tvarů ukazující větší selektivní aktivaci v zadních oblastech pro fragmenty objektů, zatímco přední oblasti vykazují větší aktivaci pro úplné nebo částečné objekty. To je v souladu s předchozími výzkumy, které naznačují hierarchické zastoupení ve ventrální temporální kůře, kde dochází ke zpracování primárních rysů v zadních oblastech a k integraci těchto rysů do celku a smysluplného objektu dochází v předních oblastech.

Prostřednictvím informací poskytnutých od neuropsychologických pacientů byly zjištěny disociace rozpoznávacího zpracování mezi strukturním a sémantickým zpracováním, neboť strukturní, barevné a asociativní informace mohou být selektivně narušeny. V jedné PET studii byly zjištěny oblasti, které se podílejí na asociativním sémantickém zpracování, včetně levého předního nadřazeného/středního temporálního gyru a levého temporálního pólu porovnávajícího strukturní a barevné informace, jakož i pravého temporálního pólu porovnávajícího pouze barevné rozhodovací úlohy. Tyto výsledky naznačují, že uložené percepční znalosti a sémantické znalosti zahrnují oddělené kortikální oblasti v rozpoznávání objektů, jakož i naznačují, že v temporálních oblastech existují hemisférické rozdíly.

Doporučujeme:  Sociální podmíněnost

Výzkum také poskytl důkazy, které naznačují, že vizuální sémantická informace se sbíhá v fusiformním gyri inferotemporálních laloků. Ve studii, která porovnávala sémantické znalosti kategorie versus atributy, bylo zjištěno, že hrají oddělené role v tom, jak přispívají k rozpoznání. Pro kategorická srovnání byly laterální oblasti fusiformního gyrusu aktivovány živými objekty v porovnání s neživými objekty, které aktivovaly mediální oblasti. Pro porovnání atributů bylo zjištěno, že pravý fusiformní gyrus byl aktivován globální formou v porovnání s lokálními detaily, které aktivovaly levý fusiformní gyrus. Tyto výsledky naznačují, že typ kategorie objektů určuje, která oblast fusiformního gyrusu je aktivována pro zpracování sémantického rozpoznání, zatímco atributy objektu určují aktivaci buď v levém, nebo pravém fusiformním gyrusu v závislosti na tom, zda je zpracována globální forma nebo lokální detail.

Kromě toho bylo navrženo, aby aktivace v předních oblastech fusiform gyri signalizovala úspěšné rozpoznání. Bylo však zjištěno, že úroveň aktivace závisí na sémantické relevanci objektu. Pojem sémantická relevance zde odkazuje na „míru přispění sémantických prvků k významu pojmu ‚jádro‘“. Výsledky ukázaly, že objekty s vysokou sémantickou relevancí, jako jsou artefakty, vytvářejí nárůst aktivace ve srovnání s objekty s nízkou sémantickou relevancí, jako jsou přírodní objekty. Je to způsobeno navrhovanou zvýšenou obtížností rozlišit přírodní objekty, protože mají velmi podobné strukturální vlastnosti, což ztěžuje jejich identifikaci ve srovnání s artefakty. Proto, čím snadněji je objekt identifikovatelný, tím je pravděpodobnější, že bude úspěšně rozpoznán.

Další podmínkou, která ovlivňuje úspěšnou výkonnost rozpoznávání objektů, je kontextová facilitace. Má se za to, že během úloh rozpoznávání objektů je objekt doprovázen „kontextovým rámcem“, který nabízí sémantické informace o typickém kontextu objektu. Bylo zjištěno, že když je objekt mimo kontext, výkon rozpoznávání objektů je ztížen pomalejšími reakčními časy a většími nepřesnostmi ve srovnání s úlohami rozpoznávání, když byl objekt ve vhodném kontextu. Na základě výsledků studie používající fMRI bylo navrženo, že v mozku existuje „kontextová síť“ pro kontextově asociované objekty s aktivitou převážně nalezenou v Parahippocampal cortex (PHC) a Retrosplenial Complex (RSC). V rámci PHC bylo zjištěno, že aktivita v prostoru parahippocampalu (PPA) má přednost před scénami před objekty; bylo však naznačeno, že aktivita v PHC pro osamělé objekty v úkolech kontextového usnadnění může být způsobena následným myšlením prostorové scény, v níž je objekt kontextově reprezentován. Další experimenty zjistily, že aktivace byla v PHC zjištěna pro mimoprostorové i prostorové kontexty, ačkoli aktivace z mimoprostorových kontextů byla omezena na přední PHC a zadní PHC pro prostorové kontexty.

Když vidíte objekt, víte, co je objekt, protože jste ho viděli při minulé příležitosti; tohle je rozpoznávací paměť. Nejen abnormality ventrálního (jakého) proudu vizuální dráhy ovlivňují naši schopnost rozpoznat objekt, ale také způsob, jakým je nám objekt prezentován.

Mechanismus, který je bezkontextový v tom smyslu, že to, co poznáváme, nám prostě připadá povědomé, místo abychom trávili čas snahou zjistit, v jakém kontextu tento objekt známe. ventro-laterální oblast čelního laloku se podílí na kódování paměti během náhodného učení a následného udržování a načítání sémantických vzpomínek.
Seznámení může vyvolat percepční procesy odlišné od procesů u neznámých objektů, což znamená, že naše vnímání konečného množství známých objektů je jedinečné. Odchylky od typických úhlů pohledu a kontextů mohou ovlivnit účinnost, pro kterou je objekt rozpoznáván nejefektivněji. Bylo zjištěno, že nejen že jsou známé objekty rozpoznávány efektivněji při pohledu ze známého úhlu pohledu na rozdíl od neznámého, ale také tento princip platí pro nové objekty. To vyvozuje z myšlenky, že reprezentace objektů v
našem mozku jsou uspořádány spíše známým způsobem objektů pozorovaných v prostředí. Rozpoznávání není do značné míry řízeno pouze tvarem objektu a/nebo pohledy, ale také dynamickými informacemi. Poznání může prospět vnímání dynamických světelných displejů, pohybujících se objektů, pohlaví obličejů a rozpoznávání obličejů.

Doporučujeme:  ACT-R

Vzpomínka sdílí mnoho podobností se známostí; je však závislá na kontextu a vyžaduje konkrétní informace z dotazovaného incidentu.

Ovlivňuje léze ve ventrálním proudu

Rozpoznávání objektů je složitý úkol a zahrnuje několik různých oblastí, pokud mozek není jen jedna. Pokud je jedna oblast poškozena, může být rozpoznávání objektů narušeno. Hlavní oblast pro rozpoznávání objektů se odehrává ve spánkovém laloku.Bylo například zjištěno, že léze v perirhinální kůře u potkanů způsobují poruchy rozpoznávání objektů zejména se zvýšenou nejednoznačností rysů. Zdá se, že novorozenecké aspirační léze amygdaloidního komplexu u opic vedly k větší ztrátě objektové paměti než časné hipokampální léze. U dospělých opic se však porucha objektové paměti lépe vysvětluje poškozením perirhinální a entorhinální kůry než poškozením amygdaloidních jader Kombinované amygdalohipokampální (A + H) léze u potkanů zhoršily výkon při rozpoznávání objektů, když se retenční intervaly prodloužily nad nulu a když se testovací podněty opakovaly v rámci sezení. Poškození amygdaly nebo hippocampu nemá vliv na rozpoznávání objektů, zatímco poškození A + H vytváří jasné deficity. Při úkolu rozpoznávání objektů byla úroveň diskriminace významně nižší u elektrolytických lézí globus pallidus (část bazálních ganglií) u potkanů ve srovnání s Substantia- Innominata/Ventral Pallidum, které bylo zase horší ve srovnání se skupinami Control a Medial Septum/Vertical Diagonal Band of Broca; nicméně pouze globus pallidus nerozlišoval mezi novými a známými objekty. Tyto léze poškozují ventrální (jakou) dráhu vizuálního zpracování objektů v mozku.

Agnozie je vzácný výskyt a může být důsledkem mrtvice, demence, poranění hlavy, infekce mozku nebo dědičné.
Aperceptivní agnózie je deficit ve vnímání objektu vytvářející neschopnost pochopit význam objektů.
Podobně asociativní agnózie je neschopnost pochopit význam objektů; nicméně tentokrát je deficit v sémantické paměti. Obě tyto agnózie mohou ovlivnit cestu k rozpoznání objektu, jako Marrova teorie vidění. Konkrétněji na rozdíl od aperceptivní agnózie, asociativní agnózičtí pacienti jsou úspěšnější v kreslení, kopírování a porovnávání taks; nicméně tito pacienti prokazují, že mohou vnímat, ale ne rozpoznat.
Integrační agnózie (podtyp asociativní agnózie)je neschopnost integrovat oddělené části k vytvoření celého obrazu. U těchto typů agnózií dochází k poškození ventrálního (jakého) proudu cesty vizuálního zpracování.
Orientace objektu agnózie je neschopnost extrahovat orientaci objektu navzdory adekvátnímu rozpoznání objektu. U tohoto typu agnózie dochází k poškození dorzálního (kde) proudu cesty vizuálního zpracování.
To může ovlivnit rozpoznávání objektu z hlediska povědomosti a ještě více v neznámých objektech a úhlech pohledu.
Potíže při rozpoznávání obličejů lze vysvětlit prosopagnosií. Někdo s prosopagnosií nemůže obličej určit, ale je stále schopen vnímat věk, pohlaví a emocionální výraz. Oblastí mozku, která určuje v rozpoznávání obličeje, je fusiformní oblast obličeje. Prosopagnosii lze také rozdělit na aperceptivní a asociativní podtypy. Rozpoznávání jednotlivých židlí, aut, zvířat může být také narušeno; proto tyto objekty sdílejí podobné vnímací rysy s obličejem, které jsou rozpoznány v oblasti fusiformního obličeje.

Rozlišení mezi kategorií a atributem v sémantické reprezentaci může informovat o naší schopnosti posoudit sémantickou funkci ve stáří a ve stavech onemocnění ovlivňujících sémantickou paměť, jako je Alzheimerova choroba (AD). Kvůli nedostatkům sémantické paměti mají osoby trpící Alzheimerovou chorobou potíže s rozpoznáváním objektů, protože je známo, že sémantická paměť se používá k získávání informací pro pojmenování a kategorizaci objektů. Ve skutečnosti je velmi diskutované, zda sémantický paměťový deficit v AD odráží ztrátu sémantických znalostí pro určité kategorie a pojmy nebo ztrátu znalostí percepčních rysů a atributů.