V psychoakustice dochází ke sluchovému maskování, když je sluchové vnímání jednoho zvuku ovlivněno přítomností jiného zvuku.
Sluchové maskování ve frekvenční doméně je známé jako simultánní maskování, frekvenční maskování nebo spektrální maskování. Sluchové maskování v časové doméně je známé jako časové maskování nebo simultánní maskování.
Odmaskovaný práh je nejtišší úroveň signálu, kterou lze vnímat bez přítomnosti maskovacího signálu. Maskovaný práh je nejtišší úroveň signálu vnímaná v kombinaci se specifickým maskovacím šumem. Množství maskování je rozdíl mezi maskovaným a neodmaskovaným prahem.
Základní příklad uvádí Gelfand. Řekněme, že pro daného jedince je zvuk kočky škrábající kůl v jinak klidném prostředí nejprve slyšitelný na úrovni 10 dB SPL. Avšak v přítomnosti maskovacího zvuku (například vysavače, který běží současně) nemůže tentýž jedinec zachytit zvuk kočky škrábající, pokud úroveň škrábajícího zvuku není alespoň 26 dB SPL. Řekli bychom, že demaskovaná prahová hodnota pro daného jedince pro cílový zvuk (tj. škrábání kočky) je 10 dB SPL, zatímco maskovaná prahová hodnota je 26 dB SPL. Množství maskování je jednoduše rozdíl mezi těmito dvěma prahovými hodnotami: 16 dB.
Množství maskování se bude lišit v závislosti na vlastnostech jak cílového signálu, tak maskéra a bude také specifické pro jednotlivého posluchače. Zatímco osoba ve výše uvedeném příkladu byla schopna detekovat kočičí škrábání při 26 dB SPL, jiná osoba nemusí být schopna slyšet kočičí škrábání při zapnutém podtlaku, dokud se hladina zvuku kočičího škrábání nezvýšila na 30 dB SPL (čímž se množství maskování pro druhého posluchače zvýšilo na 20 dB).
K souběžnému maskování dochází tehdy, když je zvuk znemožněn hlukem nebo nežádoucím zvukem se stejnou dobou trvání jako původní zvuk. Například silný hrot na 1 kHz má tendenci maskovat tón nižší úrovně na 1,1 kHz. Také dva sinusové tóny na 440 a 450 Hz mohou být zřetelně vnímány, když jsou odděleny. Nelze je jasně vnímat, když jsou prezentovány současně.
Nezamaskovaná prahová hodnota je nejtišší úroveň signálu, kterou lze vnímat v tichu. Zamaskovaná prahová hodnota je nejtišší úroveň signálu vnímaná při prezentaci v šumu. Množství maskování je rozdíl mezi zamaskovanými a nezamaskovanými prahovými hodnotami (Gelfand 2004).
Například pokud je zamaskovaná prahová hodnota 35 dB a nezamaskovaná prahová hodnota 20 dB, množství zamaskování by bylo 15 dB. To je znázorněno na obrázku A.
figura A Upraveno z nákresu od Gelfanda (2004)
Základní zkouška maskování spočívá v tom, že se nemaskované prahové hodnoty měří na subjektu. Poté se hluk maskování zavádí při pevné hladině zvuku a zároveň se zobrazuje signál. Hladina signálu se mění, dokud se neměří nová prahová hodnota. Jedná se o maskovanou prahovou hodnotu (Gelfand 2004).
Fenomén maskování se často používá ke zkoumání schopnosti sluchového systému oddělit složky komplexního zvuku. Například pokud jsou dva zvuky o dvou různých frekvencích (výškách) přehrávány současně, mohou být často slyšet dva oddělené zvuky spíše než kombinovaný tón. To je jinak známé jako frekvenční rozlišení nebo frekvenční selektivita. Má se za to, že frekvenční rozlišení vzniká filtrováním uvnitř hlemýždě, sluchového orgánu ve vnitřním uchu. Komplexní zvuk je rozdělen na různé frekvenční složky a tyto složky způsobují vrchol ve vzorci vibrací na určitém místě bazilární membrány uvnitř hlemýždě. Tyto složky jsou pak kódovány nezávisle na sluchovém nervu, který přenáší zvukovou informaci do mozku. K tomuto individuálnímu kódování dochází pouze v případě, že frekvenční složky jsou dostatečně odlišné ve frekvenci, jinak jsou kódovány na stejném místě (Moore 1986).
Těmto filtrům se říká sluchové filtry nebo poslechové kanály a předpokládá se, že se seřazují podél bazilární membrány a překrývají se. Říká se, že na bazilární membráně dochází k rozlišení frekvence díky tomu, že si posluchač vybere filtr, který je soustředěn na frekvenci, kterou chce slyšet, tedy na frekvenci signálu. Ostře laděný filtr má dobré rozlišení frekvence, protože umožňuje středové frekvence skrz, ale ne jiné frekvence (Pickles 1982). Poškození hlemýždě a vnějších vlasových buněk v hlemýždi způsobuje sníženou ostrost ladění (Moore 1986). To vysvětluje, proč by někdo se ztrátou sluchu v důsledku poškození hlemýždě měl větší problémy než normální slyšící člověk s frekvenční selektivitou. To by způsobilo, že by měl například potíže s rozlišováním různých souhlásek v řeči (Moore 1995).
Maskování dokládá meze frekvenční selektivity i u normálního slyšícího člověka. Pokud je signál maskován maskou s jinou frekvencí než signál, pak sluchový systém nebyl schopen rozlišit mezi oběma frekvencemi. Proto provedením experimentu, aby byly vidět podmínky, které jsou nezbytné pro to, aby jeden zvuk maskoval dříve slyšený signál, lze zkoumat frekvenční selektivitu sluchového systému (Moore 1998).
Vliv frekvence na maskovací vzory
Jak efektivní je maskování při zvyšování prahu signálu, závisí na frekvenci signálu a frekvenci maskování.
Grafy na obrázku B jsou sérií maskovacích vzorů, jinak známých jako maskovací audiogramy upravené podle zjištění Ehmera (Gelfand 2004). Každý graf ukazuje množství maskování vytvořeného při každé frekvenci maskování zobrazené v horním rohu, 250, 500, 1000 a 2000Hz. Například v prvním grafu je maskování prezentováno na frekvenci 250Hz současně se signálem. O kolik maskování zvyšuje práh signálu je vyneseno do grafu a to se opakuje pro různé frekvence signálu, zobrazené na ose X. Frekvence maskování je udržována konstantní. Maskovací efekt je zobrazen v každém grafu při různých úrovních zvuku maskování.
obrázek B Převzato z Ehmer, Ilustrace změn v maskovacích vzorcích pro různé frekvence a intenzity maskování
Obrázek B ukazuje podél osy Y množství maskování- o kolik je tedy zvýšen nezamaskovaný práh v tichu, aby byl dosažen zamaskovaný práh v šumu. Osa X ukazuje frekvenci signálu. Vidíte, že největší maskování je na středové frekvenci, kdy maskování a signál mají stejnou frekvenci, a ta se snižuje, jak se signál vzdaluje od frekvence maskování (Gelfand 2004). Tento jev se nazývá on-frekvenční maskování a dochází k němu, protože maskování a signál jsou uvnitř stejného zvukového filtru (obrázek C). To znamená, že sluchový systém mezi nimi nedokáže rozlišit, a tak je signál zamaskován (Gelfand 2004).
obrázek C Zobrazení na kmitočtovém maskování, kde je frekvence signálu ve frekvenčním pásmu masky
obrázek D- znázorňující frekvenční maskování, kde je frekvence signálu mimo frekvenční pásmo maskování
Off-frekvenční maskování je, když signál a maskér jsou na různých frekvencích (obrázek D.)
Množství, které maskér zvýší práh signálu, je mnohem méně v off-frekvenčním maskování. Z obrázku E však můžete vidět, že má určitý maskovací efekt, protože některé masky se překrývají do zvukového filtru signálu (Moore 1998).
obrázek E Zobrazení množství masky, která sdílí stejný zvukový filtr/poslechový kanál jako signál
Maskování mimo frekvenci vyžaduje, aby úroveň masky byla větší, aby měla maskovací efekt; to je znázorněno na obrázku F.
Obrázek F Zobrazení vztahu mezi úrovní maskovače a prahem maskování pro zapnutí i vypnutí kmitočtového maskování
Je to proto, že do zvukového filtru (viz Sluchové filtry) signálu se překrývá jen určité množství masky, proto je potřeba více masky pro maskování signálu (Moore 1998).
Z obrázku B je také vidět, že maskovací vzor se mění v závislosti na frekvenci maskéru a intenzitě. Z grafu 1000Hz můžete pozorovat, že pro nízké úrovně, např. 20-40 dB, je křivka relativně symetrická. Jak roste intenzita maskéru, křivky se rozšiřují s větším maskováním zejména signálů na frekvenci vyšší než maskér (Gelfand 2004). To ukazuje, že dochází k šíření maskovacího efektu směrem nahoru ve frekvenci, jak se zvyšuje intenzita maskéru. Křivka je mnohem mělčí ve vysokých frekvencích než v nízkých frekvencích a to se nazývá směrem nahoru šíření maskování. To znamená, že zvuk (maskér) maskuje vysokofrekvenční signály mnohem lépe než nízkofrekvenční signály (Gelfand 2004).
Z obrázku B můžete také pozorovat, že jak se zvyšuje frekvence maskérů, maskovací vzory se stále více stlačují. To ukazuje, že vysokofrekvenční masky jsou účinné pouze v úzkém rozsahu frekvencí, blízko frekvence maskérů. Naproti tomu nízkofrekvenční masky jsou účinné v širokém frekvenčním rozsahu (Gelfand 2004). Je to způsobeno zvláštními vzory aktivity na bazilární membráně.
Jak již bylo zmíněno, experimenty s maskováním odhalují informace o frekvenční selektivitě ucha a poslechových kanálech/zvukových filtrech, které se používají k rozlišení mezi jednou a druhou frekvencí. Fletcher provedl experiment, aby zjistil, nakolik pásmo šumu přispívá k maskování tónu. Provedl experiment s maskováním, kdy pevný tónový signál měl různé šířky pásma šumu soustředěné na něj. Hranice maskování byla zaznamenána pro každou šířku pásma. Jeho výzkum ukázal, že existuje kritická šířka pásma šumu, která způsobuje maximální maskovací efekt a energie mimo toto kritické pásmo nemá vliv na maskovací efekt. To lze vysvětlit tím, že sluchový systém má sluchový filtr, který je soustředěn přes frekvenci tónu. Šířka pásma masky, která je uvnitř tohoto sluchového filtru, účinně maskuje tón, ale zbytek masky, který je mimo filtr, nemá žádný účinek (obrázek G.)
obrázek G Zobrazení množství masky, která přispívá k maskování tónového signálu – známé jako kritická šířka pásma. Energie mimo zvukový filtr nepřispívá k maskování tónového signálu. Převzato z diagramu Gelfand (2004)
Používá se v Mp3 souborech ke zmenšení velikosti zvukových souborů. Části signálů, které jsou mimo kritickou šířku pásma, jsou vystřiženy a zůstávají pouze ty části signálů, které jsou vnímány posluchačem (Sellars 2000).
Další aplikací maskování sluchu v každodenních situacích je efekt koktejlového večírku.
Jsou-li dva zvuky o dvou různých frekvencích přehrávány současně, mohou být často slyšet dva oddělené zvuky spíše než kombinovaný tón. Schopnost slyšet frekvence odděleně je známa jako frekvenční rozlišení nebo frekvenční selektivita. Jsou-li signály jako kombinovaný tón, říká se, že se nacházejí ve stejné kritické šířce pásma. Předpokládá se, že k tomuto efektu dochází díky filtraci uvnitř hlemýždě, sluchového orgánu ve vnitřním uchu. Složitý zvuk je rozdělen na různé frekvenční složky a tyto složky způsobují vrchol ve vzorci vibrací na určitém místě na řasince uvnitř bazilární membrány uvnitř hlemýždě. Tyto složky jsou pak kódovány nezávisle na sluchovém nervu, který přenáší zvukovou informaci do mozku. K tomuto individuálnímu kódování dochází pouze tehdy, jsou-li frekvenční složky dostatečně odlišné ve frekvenci, jinak jsou ve stejném kritickém pásmu a jsou kódovány na stejném místě a jsou vnímány jako jeden zvuk místo dvou.
Filtry, které odlišují jeden zvuk od druhého, se nazývají sluchové filtry, poslechové kanály nebo kritické šířky pásma. K rozlišení frekvence dochází na bazilární membráně díky tomu, že si posluchač zvolí filtr, který je vycentrován přes frekvenci, kterou očekává, že uslyší, tedy frekvenci signálu. Ostře laděný filtr má dobré rozlišení frekvence, protože umožňuje středové frekvence skrz, ale ne jiné frekvence (Pickles 1982). Poškození hlemýždě a vnějších vlasových buněk v hlemýždi může zhoršit schopnost rozeznat zvuky od sebe (Moore 1986). To vysvětluje, proč by někdo se ztrátou sluchu kvůli poškození hlemýždě měl větší potíže než normální slyšící člověk při rozlišování různých souhlásek v řeči.
Maskování ilustruje hranice frekvenční selektivity. Pokud je signál maskován maskou s jinou frekvencí než signál, pak sluchový systém nebyl schopen rozlišit mezi oběma frekvencemi. Experimentováním s podmínkami, kdy jeden zvuk může maskovat dříve slyšený signál, lze testovat frekvenční selektivitu sluchového systému.
Obrázek B – Převzato z Ehmera
Jak efektivní je maskování při zvyšování prahu signálu, závisí na frekvenci signálu a frekvenci maskování. Grafy na obrázku B jsou sérií maskovacích vzorů, známých také jako maskovací audiogramy. Každý graf ukazuje množství maskování vytvořeného při každé frekvenci maskování zobrazené v horním rohu, 250, 500, 1000 a 2000 Hz. Například v prvním grafu je maskování prezentováno na frekvenci 250 Hz současně se signálem. Množství, které maskování zvyšuje práh signálu, je vyneseno do grafu a to se opakuje pro různé frekvence signálu, zobrazené na ose X. Frekvence maskování je udržována konstantní. Maskovací efekt je zobrazen v každém grafu při různých úrovních zvuku maskování.
Obrázek C – Převzato z Gelfand 2004
Obrázek D- Upraveno z Gelfand 2004
Obrázek B ukazuje podél osy Y množství maskování. Největší maskování je, když maskér a signál mají stejnou frekvenci a ta se snižuje, jak se frekvence signálu vzdaluje od frekvence maskéru. Tento jev se nazývá on-frequency maskování a dochází k němu, protože maskér a signál jsou uvnitř stejného zvukového filtru (obrázek C). To znamená, že posluchač mezi nimi nedokáže rozlišit a jsou vnímány jako jeden zvuk s tišším zvukem maskovaným tím hlasitějším (obrázek D).
Obrázek E – převzato z Moore 1998
Množství, které masker zvýší práh signálu, je mnohem méně při off-frekvenčním maskování, ale má to nějaký maskovací efekt, protože některé masky se překrývají do zvukového filtru signálu (Obrázek E)
Obrázek F – převzato z Moore 1998
Off-frekvenční maskování
vyžaduje, aby úroveň maskování byla větší, aby měl maskovací efekt; to je znázorněno na obrázku F. Je to proto, že jen určité množství maskování se překrývá do zvukového filtru signálu a více maskování je potřeba k pokrytí signálu.
Vzorec maskování se mění v závislosti na frekvenci maskování a intenzitě (obrázek B). U nízkých úrovní na grafu 1000 Hz, jako je rozsah 20-40 dB, je křivka relativně rovnoběžná. Jak se intenzita maskování zvyšuje, křivky jsou oddělené, zejména u signálů o frekvenci vyšší než u maskování. To ukazuje, že dochází k šíření maskovacího efektu směrem nahoru ve frekvenci, jak se zvyšuje intenzita maskování. Křivka je mnohem mělčí ve vysokých frekvencích než v nízkých frekvencích. Toto zploštění se nazývá směrem nahoru šíření maskování a je důvodem, proč rušivý zvuk maskuje vysokofrekvenční signály mnohem lépe než nízkofrekvenční signály.
Obrázek B také ukazuje, že s rostoucí frekvencí maskování se maskovací vzory stále více stlačují. To demonstruje, že vysokofrekvenční masky jsou účinné pouze v úzkém rozsahu frekvencí, blízko frekvence maskování. Naproti tomu nízkofrekvenční masky jsou účinné v širokém frekvenčním rozsahu.
Obrázek G – převzat z nákresu od Gelfanda
Harvey Fletcher provedl experiment, aby zjistil, nakolik pásmo šumu přispívá k maskování tónu. V experimentu měl pevný tónový signál různé šířky pásma šumu soustředěné na něj. Maskovaný práh byl zaznamenán pro každou šířku pásma. Jeho výzkum ukázal, že existuje kritická šířka pásma šumu, která způsobuje maximální maskovací efekt a energie mimo toto pásmo maskování neovlivňuje. To lze vysvětlit tím, že sluchový systém má sluchový filtr, který je soustředěn přes frekvenci tónu. Šířka pásma maskeru, která je uvnitř tohoto sluchového filtru, účinně maskuje tón, ale masker mimo filtr nemá žádný účinek (obrázek G.)
To se používá v MP3 souborech ke zmenšení velikosti zvukových souborů. Části signálů, které jsou mimo kritickou šířku pásma, jsou reprezentovány se sníženou přesností. Části signálů, které jsou vnímány posluchačem, jsou reprodukovány s vyšší věrností.
Obrázek H – převzato z Moore 1998
Na maskování mohou mít vliv i různé úrovně intenzity. Spodní konec filtru se s rostoucí hladinou decibelů stává plošší, zatímco horní se stává mírně strmější. Změny sklonu vysokofrekvenční strany filtru s intenzitou jsou méně konzistentní než při nízkých frekvencích. Při středních frekvencích (1–4 kHz) se sklon zvyšuje s rostoucí intenzitou, ale při nízkých frekvencích není jasný sklon s hladinou a filtry při vysokých středových frekvencích vykazují s rostoucí hladinou malý pokles sklonu. Ostrost filtru závisí na vstupní hladině a nikoli na výstupní hladině do filtru. Spodní strana zvukového filtru se s rostoucí hladinou také rozšiřuje. Tato pozorování jsou znázorněna na obrázku H.
Časové maskování nebo simultánní maskování nastává, když zvuk náhlého podnětu vydává neslyšitelné jiné zvuky, které jsou přítomny bezprostředně předcházející podnětu nebo po něm. Maskování, které zastírá zvuk bezprostředně předcházející maskování, se nazývá zpětné maskování nebo předmaskování a maskování, které zastírá zvuk bezprostředně následující po maskování, se nazývá přední maskování nebo postmaskování. Účinnost časového maskování exponenciálně slábne od počátku a posunu maskování, s počátečním útlumem trvajícím přibližně 20 ms a ofsetovým útlumem trvajícím přibližně 100 ms.
Podobně jako simultánní maskování odhaluje temporální maskování frekvenční analýzu prováděnou sluchovým systémem; předsunuté maskovací prahy pro komplexní harmonické tóny (např. pilovitá sonda se základní frekvencí 500 Hz) vykazují prahové špičky (tj. vysoké úrovně maskování) pro frekvenční pásma soustředěná na prvních několika harmonických. Šířky sluchových pásem měřené z předsunutých maskovacích prahů jsou ve skutečnosti užší a přesnější než pásma měřená pomocí simultánního maskování.
Časové maskování by nemělo být zaměňováno s akustickým reflexem ucha, nedobrovolnou reakcí ve středním uchu, která je aktivována, aby chránila ušní choulostivé struktury před hlasitými zvuky.
obrázek I – ipsilaterální simultánní maskování
Ipsilaterální („stejná strana“) maskování není jedinou podmínkou, kdy maskování probíhá. Jiná situace, kdy dochází k maskování, se nazývá kontralaterální („druhá strana“) simultánní maskování. V tomto případě se jedná o případ, kdy signál může být slyšitelný v jednom uchu, ale je záměrně odebrán aplikací masky do druhého ucha.
Poslední situace, kdy dochází k maskování, se nazývá centrální maskování. Týká se to případu, kdy maskování způsobí zvýšení prahu. To může nastat v nepřítomnosti jiného efektu nebo navíc k němu a je to způsobeno interakcemi uvnitř centrálního nervového systému mezi oddělenými nervovými vstupy získanými z maskování a signálem.
Účinky různých typů podnětů
Experimenty byly provedeny s cílem zjistit různé maskovací efekty při použití masky, která je buď ve formě úzkopásmového šumu nebo sinusového tónu.
Když je současně předložen sinusový signál a sinusový maskér (tón), obálka kombinovaného podnětu kolísá v pravidelném obrazci popsaném jako beaty. K výkyvům dochází při jmenovité hodnotě definované rozdílem mezi frekvencemi obou zvuků. Je-li rozdíl frekvencí malý, pak je zvuk vnímán jako periodická změna hlasitosti jednoho tónu. Jsou-li beaty rychlé, pak to lze popsat jako pocit drsnosti. Při velkém frekvenčním oddělení jsou obě složky slyšet jako samostatné tóny bez drsnosti nebo beatů. Beaty mohou být podnětem k přítomnosti signálu, i když samotný signál není slyšitelný. Vliv beatů lze snížit použitím úzkopásmového šumu spíše než sinusového tónu buď pro signál nebo maskér.
Ipsilaterální, kontralaterální a centrální maskování
Maskování může být prováděno za několika různých podmínek. Jednou z nich je Ipsilaterální, simultánní maskování, které se týká případu, kdy jsou maskér i maskovaný současně dodáni do testovacího ucha. To může být jak on-frekvenční, tak off-frekvenční (Gelfand 2004).
obrázek I Demonstrace ipsilaterální simultánní maskování
Další podmínkou maskování je kontralaterální simultánní maskování. Tato podmínka maskování se týká případu, kdy signál může být slyšitelný v nezkoušejícím uchu (prostřednictvím transkraniálního vedení), ale je záměrně vyhlazen aplikací masky na nezkoušející ucho. Poslední podmínkou maskování je centrální maskování. To se týká případu, kdy maskování způsobí zvýšení prahu (způsobí, že dříve slyšený signál není slyšet) v nepřítomnosti nebo dodatečně k jakémukoli ipsilaterálnímu, kontralaterálnímu nebo zkříženému maskovacímu účinku. Je způsobeno interakcemi uvnitř centrálního nervového systému mezi oddělenými nervovými vstupy odvozenými od maskování a signálem (Gelfand 2004).
Existuje mnoho různých mechanismů maskování, jedním je potlačení. To je, když dojde ke snížení odezvy na signál v důsledku přítomnosti jiného. K tomu dochází, protože původní nervová aktivita způsobená prvním signálem je snížena nervovou aktivitou druhého zvuku.
Kombinované tóny jsou produkty signálu a masky. K tomu dochází, když se oba zvuky vzájemně ovlivňují a způsobují nový zvuk, který může být slyšitelnější než původní signál. To je způsobeno nelineárním zkreslením, ke kterému dochází v uchu. Například kombinovaný tón dvou mask může být lepší maskou než samotné dvě původní masky.
Zvuky se vzájemně ovlivňují mnoha způsoby v závislosti na rozdílu frekvence mezi oběma zvuky. Nejdůležitější dva jsou krychlové rozdílné tóny a kvadratické rozdílné tóny.
kubické rozdílové tóny se vypočítají součtem
(F1 je první frekvence, F2 druhá)
Ty jsou slyšitelné po většinu času a zejména, když je úroveň původního tónu nízká. Proto mají větší vliv na psychoakustické ladící křivky než kvadratické rozdílové tóny.
Kvadratické rozdílové tóny jsou výsledkem
Dochází k tomu v relativně vysokých hladinách, proto mají menší vliv na psychoakustické ladicí křivky.
Kombinované tóny mohou interagovat s primárními tóny, což vede k sekundárním kombinovaným tónům díky tomu, že jsou jako jejich původní primární tóny v přírodě, jako podnět. Příkladem toho je
Sekundární kombinované tóny jsou opět podobné kombinovaným tónům primárního tónu.
Off frekvenční poslech je, když si posluchač vybere filtr jen o málo nižší než signální frekvence, aby zlepšil svůj sluchový výkon. Tento „off frekvenční“ filtr snižuje úroveň masky více než signál na výstupní úrovni filtru, což znamená, že může slyšet signál jasněji, a tím způsobuje zlepšení sluchového výkonu (Moore 2004).
Jiné než souběžné maskování je, když signál a maskér nejsou prezentovány současně. To lze rozdělit na maskování dopředu a maskování dozadu. Maskování dopředu je, když je maskér prezentován jako první a signál po něm následuje. Maskování dozadu je, když signál předchází maskeru (Moore 1998).