Vnímání řeči se vztahuje k procesům, kterými jsou lidé schopni interpretovat a rozumět zvukům používaným v jazyce. Studium vnímání řeči je úzce spjato s obory fonetiky a fonologie v lingvistice a kognitivní psychologie a vnímání v psychologii. Výzkum ve vnímání řeči se snaží porozumět tomu, jak lidští posluchači rozpoznávají zvuky řeči a využívají tyto informace k porozumění mluvené řeči. Výzkum řeči má využití při budování počítačových systémů, které mohou rozpoznávat řeč, a také při zlepšování rozpoznávání řeči pro sluchově a jazykově postižené posluchače.
Základy vnímání řeči
Proces vnímání řeči začíná na úrovni zvukového signálu a procesu konkurzu. (Kompletní popis procesu konkurzu viz Slyšení.) Po zpracování počátečního zvukového signálu jsou dále zpracovávány zvuky řeči za účelem získání akustických podnětů a fonetických informací. Tyto informace řeči pak mohou být použity pro vyšší jazykové procesy, jako je rozpoznávání slov.
Obrázek 1: Spektrogramy slabik „dee“ (nahoře), „dah“ (uprostřed) a „doo“ (dole) ukazující, jak se liší počáteční formantové přechody, které definují percepčně souhlásku [d] v závislosti na identitě následující samohlásky. (Formanty jsou zvýrazněny červenými tečkovanými čarami; přechody jsou ohybové počátky formantových trajektorií.)
Zvukový signál řeči obsahuje řadu akustických podnětů, které se používají při vnímání řeči. Tyto podněty rozlišují zvuky řeči patřící do různých fonetických kategorií. Například jedním z nejvíce studovaných podnětů v řeči je čas nástupu hlasu nebo VOT. VOT je primární podnět signalizující rozdíl mezi hlasovými a bezhlasými stop souhláskami, jako jsou „b“ a „p“. Jiné podněty rozlišují zvuky, které jsou produkovány na různých místech artikulace nebo způsobů artikulace. Řečový systém musí tyto podněty také kombinovat, aby určil kategorii konkrétního zvuku řeči. To je často myšleno jako abstraktní reprezentace fonémů. Tyto reprezentace pak mohou být kombinovány pro použití při rozpoznávání slov a dalších jazykových procesech.
Není snadné určit, na jaké akustické podněty jsou posluchači citliví, když vnímají konkrétní zvuk řeči:
Linearita a problém segmentace
Obrázek 2: Spektrogram fráze „Jsem tvým dlužníkem“. Mezi řečovými zvuky nejsou jasně rozlišitelné hranice.
Přestože posluchači vnímají řeč jako proud diskrétních jednotek (fonémy, slabiky a slova), tato linearita je ve fyzickém signálu řeči obtížně viditelná (příklad viz obrázek 2). Zvuky řeči nenásledují striktně jeden druhého, spíše se překrývají. Zvuk řeči je ovlivněn těmi, které předcházejí a těmi, které následují. Tento vliv může být dokonce uplatňován na vzdálenost dvou nebo více segmentů (a přes slabiky a hranice slov).
Výzkum a aplikace vnímání řeči se musí zabývat několika problémy, které vyplývají z toho, co bylo nazváno nedostatkem invariance. Jak bylo naznačeno výše, spolehlivé konstantní vztahy mezi fonémem jazyka a jeho akustickým projevem v řeči je obtížné najít. Je pro to několik důvodů:
Percepční stálost a normalizace
Obrázek 3: Levý panel ukazuje 3 periferní americké samohlásky /i/, /ɑ/, a /u/ ve standardním grafu F1 od F2 (v Hz). Nesoulad mezi mužskými, ženskými a dětskými hodnotami je zřejmý. V pravém panelu jsou zakresleny vzdálenosti formantů (v Barku) namísto absolutních hodnot normalizačním postupem navrženým Syrdalem a Gopalem v roce 1986. Formální hodnoty jsou převzaty z Hillenbranda a kol. (1995)
Zda k normalizaci skutečně dochází a jaká je její přesná povaha, je otázkou teoretické polemiky (viz teorie níže). Vnímavá stálost je jev, který není specifický pouze pro vnímání řeči; existuje i v jiných typech vnímání.
Obrázek 4: Příklad identifikačních (červená) a diskriminačních (modrá) funkcí
Kategorické vnímání se podílí na procesech percepční diferenciace. Zvuky řeči vnímáme kategoricky, to znamená, že si spíše všimneme rozdílů mezi kategoriemi (fonémy) než v rámci kategorií. Vnímavý prostor mezi kategoriemi je proto pokřivený, centra kategorií (nebo „prototypy“) fungují jako síto nebo jako magnety pro přicházející zvuky řeči.
Uvažujme o umělém kontinuu mezi bezhlasým a hlasovým dvouhlasým zastavením, kde se každý nový krok liší od předchozího ve výši VOT. První zvuk je předhlasový [b], tj. má záporný VOT. Pak se zvýšením VOT dostaneme do bodu, kdy je nulový, tj. zastavením je prostý neaspirovaný bezhlasý [p]. Postupně, přidáváním stejného množství VOT v čase, se dostaneme do bodu, kdy zastavením je silně aspirovaný bezhlasý dvouhlasý [pʰ]. (Takové kontinuum bylo použito v experimentu Liskera a Abramsona v roce 1970. Zvuky, které použili, jsou dostupné na internetu.) V tomto kontinuu například sedmi zvuků identifikují rodilí angličtí posluchači první tři zvuky jako /b/ a poslední tři zvuky jako /p/ s jasnou hranicí mezi oběma kategoriemi. Test identifikace (nebo kategorizace) dvou alternativ přinese nespojitou kategorizační funkci (viz červená křivka na obrázku 4).
Pokud testujeme schopnost rozlišovat mezi dvěma zvuky s různými hodnotami VOT, ale s konstantní vzdáleností VOT od sebe (například 20 ms), posluchači pravděpodobně vystoupí na náhodné úrovni, pokud oba zvuky spadají do stejné kategorie a na téměř 100% úrovni, pokud každý zvuk spadá do jiné kategorie (viz křivka modré diskriminace na obrázku 4).
Z testu identifikace a diskriminace lze vyvodit závěr, že posluchači budou mít různou citlivost na stejný relativní nárůst VOT v závislosti na tom, zda byla či nebyla překročena hranice mezi kategoriemi. Podobná percepční úprava je doložena i u dalších akustických podnětů.
Vlivy shora dolů na vnímání řeči
Proces vnímání řeči nemusí být nutně jednosměrný. To znamená, že jazykové procesy vyšší úrovně spojené s morfologií, syntaxí nebo sémantikou mohou interagovat se základními procesy vnímání řeči, aby pomohly při rozpoznávání řečových zvuků. Může se stát, že není nutné a možná ani možné, aby posluchač rozpoznal fonémy před rozpoznáním vyšších jednotek, jako jsou například slova. Po získání alespoň základní informace o fonémové struktuře vnímané entity z akustického signálu jsou posluchači schopni kompenzovat chybějící nebo šumem maskované fonémy pomocí své znalosti mluveného jazyka.
V klasickém experimentu nahradil Richard M. Warren (1970) jeden foném slova zvukem podobným kašli. Jeho subjekty obnovily chybějící řečový zvuk vnímavě bez jakýchkoli obtíží a co víc, nebyly schopny přesně určit, který foném byl narušen. Další základní experiment porovnává rozpoznávání přirozeně vyslovených slov prezentovaných ve větě (nebo alespoň frázi) a stejných slov prezentovaných izolovaně. Přesnost vnímání obvykle klesá v posledně jmenované podmínce. Garnes a Bond (1976) také používali nosné věty při zkoumání vlivu sémantických znalostí na vnímání. Vytvořili sérii slov lišících se v jednom fonému (například bay / day / gay). Kvalita prvního fonému se měnila v kontinuu. Všechny tyto podněty byly vloženy do různých vět, z nichž každá dávala smysl pouze s jedním ze slov. Posluchači měli tendenci posuzovat nejednoznačná slova (když první segment byl na hranici mezi kategoriemi) podle významu celé věty.
Kojenci začínají proces osvojování jazyka tím, že jsou schopni odhalit velmi malé rozdíly mezi zvuky řeči. Jsou schopni rozlišit všechny možné kontrasty řeči (fonémy). Postupně, jak jsou vystaveni svému rodnému jazyku, se jejich vnímání stává jazykově specifickým, tj. učí se ignorovat rozdíly v rámci fonémových kategorií jazyka (rozdíly, které mohou být kontrastní i v jiných jazycích – například angličtina rozlišuje dvě vyslovující kategorie stop souhlásek, zatímco thajština má tři kategorie; kojenci se musí naučit, které rozdíly jsou v jejich rodném jazyce charakteristické a které ne). Jak se kojenci učí třídit příchozí zvuky řeči do kategorií, ignorují irelevantní rozdíly a posilují kontrastní, stává se jejich vnímání kategorickým. Kojenci se učí kontrastovat různé fonémy samohlásek svého rodného jazyka přibližně do 6 měsíců věku. Domorodé souhláskové kontrasty se získávají do 11 nebo 12 měsíců věku. Někteří výzkumníci navrhli, že kojenci mohou být schopni naučit se zvukové kategorie svého rodného jazyka prostřednictvím pasivního poslechu, pomocí procesu zvaného statistické učení. Jiní dokonce tvrdí, že určité zvukové kategorie jsou vrozené, to znamená, že jsou geneticky specifikované (viz diskuse o vrozené vs. získané kategorické rozlišovací schopnosti).
Jak vědci poznají, zda kojenci dokážou rozlišovat mezi zvuky řeči? Jednou z technik, které se používají ke zkoumání toho, jak kojenci vnímají řeč, je kromě výše zmíněného postupu otáčení hlavou měření jejich sací rychlosti. V takovém experimentu dítě saje speciální bradavku, zatímco je prezentováno zvuky. Nejprve se stanoví normální sací rychlost dítěte. Poté se opakovaně přehrává podnět. Když dítě slyší podnět poprvé, sací rychlost se zvyšuje, ale jak si dítě na podnět zvykne, sací rychlost se snižuje a hladiny se snižují. Poté se dítěti přehraje nový podnět. Pokud dítě vnímá nově zavedený podnět jako odlišný od podnětu pozadí, sací rychlost vykáže nárůst. Sací rychlost a metoda otáčení hlavou jsou některé z tradičnějších, behaviorálních metod pro studium vnímání řeči. Mezi novými metodami (viz výzkumné metody níže), které nám pomáhají studovat vnímání řeči, se u kojenců široce používá NIRS.
Vnímání řeči mezi jazyky a druhojazyčnými jazyky
Velké množství výzkumných studií se zaměřuje na to, jak uživatelé jazyka vnímají cizí řeč (označovanou jako vnímání řeči napříč jazyky) nebo řeč ve druhém jazyce (vnímání řeči ve druhém jazyce). Posledně jmenovaná oblast spadá do oblasti osvojování si druhého jazyka.
Jazyky se liší ve svých fonémových soupisech. To přirozeně vytváří potíže, když se setkáte s cizím jazykem. Pokud jsou například dva zvuky cizího jazyka asimilovány do jedné kategorie mateřského jazyka, bude velmi obtížné rozdíl mezi nimi rozeznat. Klasickým příkladem této situace je pozorování, že japonští studenti angličtiny budou mít problémy s identifikací nebo rozlišením anglických tekutin /l/ a /r/.
Best (1995) navrhl Perceptual Assimilation Model, který popisuje možné asimilační vzorce napříč jazykovými kategoriemi a předpovídá jejich důsledky.
Flege (1995) zformuloval Speech Learning Model, který kombinuje několik hypotéz o osvojení řeči v druhém jazyce (L2) a který jednoduchými slovy předpovídá, že zvuk L2, který není příliš podobný zvuku v rodném jazyce (L1), bude snadnější získat než zvuk L2, který je relativně podobný zvuku L1 (protože bude studujícím vnímán jako viditelněji „odlišný“).
Vnímání řeči při postižení jazyka nebo sluchu
Výzkum toho, jak lidé s postižením jazyka nebo sluchu vnímají řeč, nemá za cíl pouze objevit možnou léčbu. Může poskytnout vhled do toho, jaké principy jsou základem neporušeného vnímání řeči. Jako příklad mohou sloužit dvě oblasti výzkumu:
Jedním ze základních problémů při studiu řeči je, jak se vypořádat se šumem v řečovém signálu. To se ukazuje na potížích, které mají počítačové systémy rozpoznávání řeči s rozpoznáváním lidské řeči. Tyto programy dokážou dobře rozeznat řeč, pokud byly vycvičeny na hlas konkrétního řečníka, a za tichých podmínek. Tyto systémy však často špatně fungují v realističtějších poslechových situacích, kdy jsou lidé schopni rozumět řeči bez potíží.
Metody používané ve výzkumu vnímání řeči lze zhruba rozdělit do tří skupin: behaviorální, výpočetní a v poslední době neurofyziologické metody. Behaviorální experimenty jsou založeny na aktivní roli účastníka, tj. subjektům jsou předkládány podněty a jsou žádány, aby o nich vědomě rozhodovaly. To může mít podobu identifikačního testu, testu diskriminace, hodnocení podobnosti atd. Tyto typy experimentů pomáhají poskytnout základní popis toho, jak posluchači vnímají a kategorizují zvuky řeči.
Počítačové modelování bylo také použito k simulaci toho, jak může být řeč zpracována mozkem k vytvoření chování, které je pozorováno. Počítačové modely byly použity k řešení několika otázek ve vnímání řeči, včetně toho, jak je samotný zvukový signál zpracován k získání akustických podnětů používaných v řeči, stejně jako toho, jak je informace o řeči používána pro procesy vyšší úrovně, jako je rozpoznávání slov.
Neurofyziologické metody se spoléhají na využití informací pocházejících z přímějších a ne nutně vědomých (pre-attentativních) procesů. Subjektům jsou prezentovány řečové podněty v různých typech úkolů a měří se reakce mozku. Mozek sám může být citlivější, než se zdá, prostřednictvím behaviorálních reakcí. Například subjekt nemusí vykazovat citlivost na rozdíl mezi dvěma řečovými zvuky v testu diskriminace, ale mozkové reakce mohou odhalit citlivost na tyto rozdíly. Metody používané k měření nervových reakcí na řeč zahrnují potenciály související s událostmi, magnetoencefalografii a blízkou infračervenou spektroskopii. Jednou z důležitých reakcí používaných s potenciály souvisejícími s událostmi je nesoulad negativity, ke kterému dochází, když jsou řečové podněty akusticky odlišné od podnětu, který subjekt slyšel dříve.
Neurofyziologické metody byly zavedeny do výzkumu vnímání řeči z několika důvodů:
Bez nutnosti aktivní účasti na testu mohou být testováni i kojenci; tato vlastnost je klíčová ve výzkumu akvizičních procesů. Možnost pozorovat nízkoúrovňové sluchové procesy nezávisle na vysokoúrovňových umožňuje řešit dlouhodobé teoretické otázky, jako například zda člověk disponuje specializovaným modulem pro vnímání řeči nebo zda nějaká komplexní akustická invariance (viz výše nedostatek invariance) je základem rozpoznání zvuku řeči.
Výzkum vnímání řeči (SP) v žádném případě nevysvětlil všechny aspekty souvisejících procesů. Mnoho z toho, co bylo řečeno o SP, je otázkou teorie. Bylo vypracováno několik teorií, které rozvíjejí některé z výše uvedených a dalších nejasných otázek. Ne všechny poskytují uspokojivé vysvětlení všech problémů, nicméně výzkum, který inspirovaly, přinesl mnoho užitečných údajů.
Některé z prvních prací ve studiu toho, jak lidé vnímají zvuky řeči, byly provedeny Alvinem Libermanem a jeho kolegy z Haskinsových laboratoří. Pomocí syntetizátoru řeči zkonstruovali zvuky řeči, které se lišily v místě artikulace v kontinuu od /bɑ/ do /dɑ/ do /gɑ/. Posluchači byli požádáni, aby identifikovali, který zvuk slyšeli, a aby rozlišovali mezi dvěma různými zvuky. Výsledky experimentu ukázaly, že posluchači seskupili zvuky do diskrétních kategorií, i když zvuky, které slyšeli, se neustále měnily. Na základě těchto výsledků navrhli pojem kategorického vnímání jako mechanismus, pomocí kterého jsou lidé schopni identifikovat zvuky řeči.
Novější výzkumy využívající různé úkoly a metodiky naznačují, že posluchači jsou velmi citliví na akustické rozdíly v rámci jedné fonetické kategorie, na rozdíl od striktního kategorického popisu vnímání řeči.
S cílem poskytnout teoretický popis dat kategorického vnímání Liberman a jeho kolegové vypracovali motorickou teorii vnímání řeči, kde „se předpokládalo, že komplikované artikulační kódování bude dekódováno ve vnímání řeči stejnými procesy, které se podílejí na výrobě“ (to se označuje jako analýza syntézou). Například anglická souhláska /d/ se může lišit ve svých akustických detailech v různých fonetických kontextech (viz výše), přesto všechny /d/’y, jak je vnímána posluchačem, spadají do jedné kategorie (hlasové alveolární zastavení) a to proto, že „lingustické reprezentace jsou abstraktní, kanonické, fonetické segmenty nebo gesta, která tvoří základ těchto segmentů“. Při popisu jednotek vnímání Liberman později opustil artikulační pohyby a přešel k neurálním povelům k artikulátorům a ještě později k zamýšleným artikulačním gestům, tedy „neurální reprezentace projevu, která určuje produkci řečníka, je distální objekt, který lister vnímá“. Teorie úzce souvisí s hypotézou modularity, která navrhuje existenci modulu pro speciální účel, který má být vrozený a pravděpodobně specifický pro člověka.
Teorie byla kritizována v tom smyslu, že posluchači nejsou schopni „poskytnout přehled o tom, jak jsou akustické signály převáděny do zamýšlených gest“. Dále není jasné, jak je indexická informace (např. identita mluvky) kódována/dekódována spolu s liguisticky relevantní informací.
Teorie přímého realismu SP
Akustické orientační body a charakteristické rysy
Kromě návrhů Motorové teorie a přímého realismu o vztahu mezi fonologickými rysy a artikulárními gesty navrhl Kenneth N. Stevens ještě jeden druh vztahu: mezi fonologickými rysy a zvukovými vlastnostmi. Podle tohoto názoru posluchači zkoumají příchozí signál pro tzv. akustické mezníky, což jsou konkrétní události ve spektru, které nesou informace o gestech, která je vyvolala. Vzhledem k tomu, že tato gesta jsou omezena schopnostmi lidských artikulátorů a posluchači jsou citliví na jejich sluchové koreláty, neexistence invariance v tomto modelu jednoduše neexistuje. Akustické vlastnosti mezníků tvoří základ pro stanovení charakteristických rysů. Svazky z nich jedinečně specifikují fonetické segmenty (fonémy, slabiky, slova).
Příkladné modely vnímání řeči se liší od čtyř výše uvedených teorií, které předpokládají, že mezi rozpoznáváním slova a mluvky neexistuje žádná souvislost a že odchylka mezi mluvky je „šum“, který je třeba odfiltrovat.
Přístupy založené na příkladech tvrdí, že posluchači ukládají informace pro rozpoznávání slov i mluvčích. Podle této teorie se konkrétní případy řečových zvuků ukládají do paměti posluchače. V procesu vnímání řeči se vzpomínané případy např. slabiky uložené v paměti posluchače porovnávají s přicházejícím podnětem, aby mohl být podnět kategorizován. Podobně při rozpoznávání mluvčího se aktivují všechny paměťové stopy výroků, které tento mluvčí pronesl, a určuje se identita mluvčího. Tuto teorii podporuje několik Johnsonových experimentů, které naznačují, že naše identifikace signálu je přesnější, když mluvčího známe nebo když máme vizuální znázornění mluvčího pohlaví. Když je mluvčí nepředvídatelný nebo když je pohlaví chybně identifikováno, je chybovost v identifikaci slov mnohem vyšší.
Příkladné modely musí čelit několika námitkám, z nichž dvě jsou (1) nedostatečná paměťová kapacita pro uložení každého projevu, který byl kdy slyšen, a pokud jde o schopnost produkovat to, co bylo slyšeno, (2) zda jsou při vytváření výroků, které by zněly jako sluchové vzpomínky, ukládána nebo počítána i vlastní artikulační gesta mluvčího.