Psychoakustika se zabývá subjektivním vnímáním zvuků člověkem. Alternativně ji lze popsat jako studium psychologických korelátů fyzikálních parametrů akustiky.
Sluch není čistě mechanickým jevem šíření vln, ale je také smyslovým a vjemovým jevem. Když člověk něco slyší, přichází to k uchu jako mechanická zvuková vlna šířící se vzduchem, ale v uchu se transformuje na nervové akční potenciály. Tyto nervové impulzy pak putují do mozku, kde jsou vnímány. Proto je v mnoha problémech akustiky, například při zpracování zvuku, výhodné brát v úvahu nejen mechaniku prostředí, ale také skutečnost, že se na poslechovém zážitku člověka podílí jak ucho, tak mozek.
Ucho například provádí spektrální rozklad zvuku jako součást procesu přeměny zvuku na nervový podnět, takže některé efekty v časové oblasti jsou neslyšitelné. Tuto skutečnost využívá komprese MP3. Kromě toho má ucho logaritmickou dynamickou odezvu. Telefonní sítě tuto skutečnost využívají tím, že vzorky dat před přenosem logaritmicky komprimují a při přehrávání je exponenciálně rozšiřují. Dalším vedlejším účinkem nelineární logaritmické odezvy ucha je, že zvuky, které se na ušním bubínku objevují v těsné spektrální blízkosti, vytvářejí fantomové tóny. Jedná se o stejný princip, který se používá pro downkonverzi nosných frekvencí v rádiových předzesilovačích pomocí nelineárního zesilovače. Takové fyziologické efekty způsobené anatomií ucha se správně nazývají fyziologicko-akustické efekty, ačkoli je lidé běžně házejí do jednoho pytle s psychoakustickými efekty.
Existují skutečné psychoakustické efekty, které vnáší mozek. Například když člověk poslouchá praskající a jehlou na vinylu syčící desky, brzy přestane vnímat hluk v pozadí a hudbu si užívá. Člověk, který to dělá běžně, na hluk zřejmě úplně zapomene a po poslechu nemusí být schopen říct, zda byl hluk přítomen. Tento efekt se nazývá psychoakustické maskování. Schopnost mozku provádět takové maskování byla důležitá pro přijetí řady technologií; i když v dnešní době digitálního signálu a přehrávání s vysokou věrností se tento efekt obvykle používá spíše k zakrytí ztrát při kompresi než k zakrytí analogového bílého šumu. Dalším příkladem psychoakustického efektu je, že mozek zřejmě používá korelační proces pro rozpoznávání vzorů; podobně jako je tomu v elektronických obvodech, které hledají vzory signálů. Pokud je práh pro přijetí korelační shody velmi nízký, může člověk vnímat, že slyší hledaný vzor v čistém šumu nebo mezi zvuky, které jsou do jisté míry orientační, protože mozek doplní zbytek vzoru. Jedná se o psychoakustický fantomový efekt. Například když se radista namáhá, aby slyšel slabý signál Morseovy abecedy v hlučném pozadí, často vnímá, že slyší výšku drobných teček a čárek, i když nejsou přítomny. Obecně hrají psychoakustické fantomové efekty důležitou roli v každém prostředí, kde mají lidé zvýšené vnímání, například když mohou vnímat blízkost nebezpečí. (Analogický vizuální efekt zažívají lidé, kteří stojí na stráži na velmi tmavých místech.) Psychoakustický fantomový efekt se pojmově liší od halucinace, kdy mozek automaticky vytváří vjemy. Psychoakustický fantomový efekt se také liší od fyziologicko-akustického fantomového efektu. Jedná se o odhad prahové úrovně maskování.
Lidské ucho slyší nominálně zvuky v rozsahu 20 Hz až 20 000 Hz (20 kHz). Tato horní hranice se s věkem snižuje a většina dospělých není schopna slyšet více než 16 kHz. Ucho samo o sobě nereaguje na frekvence nižší než 20 Hz, ale ty lze vnímat prostřednictvím tělesného hmatu. (Některé nedávné výzkumy prokázaly hypersonický efekt, který spočívá v tom, že ačkoli zvuky nad 20 kHz vědomě neslyšíme, mohou na posluchače působit [jak odkazovat a odkazovat na shrnutí nebo text]).
Frekvenční rozlišovací schopnost ucha je ve středním rozsahu přibližně 2 Hz. To znamená, že lze vnímat změny výšky tónu větší než 2 Hz. Ještě menší rozdíly ve výšce tónu však lze vnímat jinými prostředky. Například interferenci dvou výšek tónu lze často slyšet jako (nízko)frekvenční rozdíl výšek tónu. Tento vliv fázové odchylky na výsledný zvuk je znám jako „bití“.
Vliv frekvence na lidské ucho má však logaritmický základ. Jinými slovy, vnímaná výška zvuku souvisí s frekvencí jako exponenciální funkce. Příkladem je dvanáctitónová hudební stupnice, která se vyvinula díky způsobu vnímání tónů. Když základní frekvenci tónu nebo noty vynásobíme přibližně (tento faktor platí v průměru, ale mírně se liší v závislosti na ladění), výsledkem je frekvence následujícího vyššího půltónu. Přechod o 12 tónů výše – oktáva – je stejný jako násobení frekvence koeficientem , což je stejné jako zdvojnásobení frekvence.
To má za následek, že půltónová stupnice používaná v západním hudebním zápisu není lineární frekvenční stupnicí, ale logaritmickou. Další stupnice byly odvozeny přímo z experimentů s lidským sluchovým vnímáním, například Melova a Barkova stupnice (ty se používají při studiu vnímání, ale obvykle ne v hudební kompozici), a ty jsou také přibližně frekvenčně logaritmické.
Rozsah „intenzity“ slyšitelných zvuků je obrovský. Naše ušní bubínky jsou citlivé pouze na změny akustického tlaku. Spodní hranice slyšitelnosti je definována na 0 dB, ale horní hranice není tak jasně definována. Horní hranice je spíše otázkou hranice, kdy dojde k fyzickému poškození ucha nebo s potenciálem způsobit sluchové postižení. Tato hranice závisí také na době vystavení zvuku. Ucho může být krátkodobě vystaveno hluku přesahujícímu 120 dB, aniž by došlo k trvalému poškození – i když s nepohodlím a případně bolestí; dlouhodobé vystavení hluku přesahujícímu 80 dB však může způsobit trvalou ztrátu sluchu.
Důkladnější zkoumání dolní hranice slyšitelnosti ukazuje, že minimální práh, při kterém je zvuk slyšitelný, závisí na frekvenci. Měřením této minimální intenzity pro testovací tóny různých frekvencí lze odvodit frekvenčně závislou křivku absolutního prahu slyšení (ATH). Ucho obvykle vykazuje vrchol citlivosti (tj. nejnižší ATH) mezi 1 kHz a 5 kHz, i když se práh mění s věkem, přičemž starší uši vykazují sníženou citlivost nad 2 kHz.
ATH je nejnižší z obrysů stejné hlasitosti. Kontury stejné hlasitosti udávají hladinu akustického tlaku (dB) v rozsahu slyšitelných frekvencí, které jsou vnímány jako stejně hlasité. Kontury stejné hlasitosti poprvé změřili Fletcher a Munson v Bellových laboratořích v roce 1933 pomocí čistých tónů reprodukovaných přes sluchátka a údaje, které shromáždili, se nazývají Fletcher-Munsonovy křivky. Protože subjektivní hlasitost bylo obtížné měřit, byly Fletcher-Munsonovy křivky zprůměrovány pro mnoho subjektů.
Lidský sluch je v podstatě jako spektrální analyzátor, to znamená, že ucho rozlišuje spektrální obsah tlakové vlny bez ohledu na fázi signálu. V praxi však lze některé fázové informace vnímat. Meziušní fázový rozdíl, tedy rozdíl zvuku mezi ušima, je významnou výjimkou, protože poskytuje významnou část směrového vjemu zvuku. Filtrační účinky přenosových funkcí souvisejících s hlavou poskytují další důležitý směrový signál.
V některých situacích může být jinak jasně slyšitelný zvuk překryt jiným zvukem. Například rozhovor na autobusové zastávce může být zcela nemožný, pokud kolem projíždí hlasitý autobus. Tento jev se nazývá maskování. Slabší zvuk je maskován, pokud je v přítomnosti hlasitějšího zvuku neslyšitelný. K maskovacímu jevu dochází proto, že jakýkoli hlasitý zvuk zkreslí absolutní práh slyšení, čímž se tišší, jinak vnímatelné zvuky stanou neslyšitelnými.
Pokud se dva zvuky vyskytují současně a jeden je maskován druhým, hovoříme o simultánním maskování. Současné maskování se někdy nazývá také frekvenční maskování. Tonalita zvuku částečně určuje jeho schopnost maskovat jiné zvuky. Například sinusový maskovací tón vyžaduje vyšší intenzitu k zamaskování šumového maskovacího tónu než hlasitý šumový maskovací tón k zamaskování sinusovky. Počítačové modely, které počítají maskování způsobené zvuky, proto musí klasifikovat jejich jednotlivé spektrální špičky podle jejich tonality.
Podobně je slabý zvuk vydaný brzy po skončení silnějšího zvuku maskován silnějším zvukem. Dokonce i slabý zvuk vydaný těsně před silnějším zvukem může být maskován silnějším zvukem. Tyto dva efekty se nazývají dopředné a zpětné časové maskování.
Na spodní hranici ušní odezvy lze někdy slyšet nízké tóny, i když na dané frekvenci není žádný zvuk. Je to způsobeno tím, že mozek syntetizuje zvuk o nízké frekvenci z rozdílů slyšitelných harmonických, které jsou přítomny.
Tento efekt se používá v některých komerčních zvukových systémech, aby se dosáhlo efektu rozšířené nízkofrekvenční odezvy, když systém sám o sobě nedokáže tuto frekvenci dostatečně reprodukovat. Viz chybějící základní frekvence.
Psychoakustika v softwaru
Psychoakustický model umožňuje vysoce kvalitní ztrátovou kompresi signálu tím, že popisuje, které části daného digitálního zvukového signálu lze bezpečně odstranit (nebo agresivně komprimovat), tj. bez výrazných ztrát na (vědomě) vnímané kvalitě zvuku.
Vysvětluje, že prudké tlesknutí rukou se může zdát bolestivě hlasité v tiché knihovně, ale je sotva patrné, když na rušné městské ulici vzplane auto. To poskytuje velký přínos pro celkový kompresní poměr a psychoakustická analýza běžně vede ke komprimovaným hudebním souborům, které mají 1/10 až 1/12 velikosti vysoce kvalitních originálních masterů s velmi malou znatelnou ztrátou kvality. Taková komprese je vlastností téměř všech moderních formátů pro kompresi zvuku, jako jsou MP3, Ogg Vorbis, WMA atd.
Psychoakustika je do značné míry založena na lidské anatomii, zejména na omezeních ucha při vnímání zvuku, jak bylo uvedeno výše. Stručně řečeno, tato omezení jsou následující:
Vzhledem k tomu, že ucho při těchto omezeních nebude mít maximální kapacitu vnímání, může kompresní algoritmus přiřadit zvukům mimo rozsah lidského sluchu nižší prioritu. Pečlivým přesunem bitů z nedůležitých složek směrem k důležitým složkám algoritmus zajistí, že zvuky, které posluchač slyší nejzřetelněji, budou mít nejvyšší kvalitu.
Psychoakustika zahrnuje témata a studie, které jsou relevantní pro hudební psychologii. Teoretici jako Benjamin Boretz považují některé výsledky psychoakustiky za významné pouze v hudebním kontextu.