Autokorelace – Dobrá psychoterapie

Graf ukazující 100 náhodných čísel se „skrytou“ sinusovou funkcí a autokorelací řady na spodní straně.

Autokorelace je matematický nástroj, který se často používá při zpracování signálu pro analýzu funkcí nebo řady hodnot, například signálů časových domén. Neformálně se jedná o měření toho, jak dobře signál odpovídá časově posunuté verzi sebe sama, jako funkci časového posunu. Přesněji řečeno, jedná se o křížovou korelaci signálu se sebou samým. Autokorelace je užitečná pro hledání opakujících se vzorů v signálu, jako je určení přítomnosti periodického signálu, který byl pohřben pod šumem, nebo identifikace chybějící základní frekvence v signálu implikované jeho harmonickými frekvencemi.

V závislosti na uvažovaném studijním oboru se používají různé definice autokorelace a ne všechny jsou rovnocenné. V některých oborech se tento termín používá zaměnitelně s autokovariancí.

Ve statistice popisuje autokorelační funkce (ACF) náhodného procesu korelaci mezi procesem v různých časových bodech. Nechť Xt je hodnota procesu v čase t (kde t může být celé číslo pro
diskrétní-časový proces nebo reálné číslo pro kontinuální-časový proces).
Jestliže Xt má průměr μ a rozptyl σ2 pak definice ACF je

kde E je operátor očekávané hodnoty. Všimněte si, že tento výraz není dobře definován pro všechny časové řady nebo procesy, protože rozptyl σ2 může být nulový (pro konstantní proces) nebo nekonečný. Je-li funkce R dobře definována, její hodnota musí ležet v rozsahu [−1, 1], přičemž 1 znamená dokonalou korelaci a −1 znamená dokonalou antikorelaci.

Pokud je Xt stacionární druhého řádu, pak ACF závisí pouze na rozdílu mezi t a s a může být vyjádřeno jako funkce jedné proměnné. To dává známější tvar

Pro diskrétní časovou řadu délky n {X1, X2, … Xn} se známým průměrem a rozptylem lze odhad autokorelace získat jako

pro jakékoli kladné číslo k < n.

Pokud skutečný průměr a rozptyl procesu nejsou známy, mohou být μ a σ2 nahrazeny standardními vzorci pro průměr vzorku a rozptyl vzorku, i když to vede ke zkreslenému odhadu.

Při zpracování signálu se výše uvedená definice často používá bez normalizace, tedy bez odečtení průměru a dělení rozptylem. Když je autokorelační funkce normalizována průměrem a rozptylem, je někdy označována jako autokorelační koeficient.

Vzhledem k signálu f(t) je spojitá autokorelace Rff(τ) nejčastěji definována jako spojitý křížový korelační integrál f(t) se sebou samým, v lag τ.

kde představuje komplexní konjugát a představuje konvoluci. Pro reálnou funkci, .

Diskrétní autokorelace R na lag j pro diskrétní signál xn je

Výše uvedené definice pracují pro signály, které jsou čtvercově integrální, neboli čtvercově sčítatelné, tedy s konečnou energií. Signály, které „trvají věčně“, jsou místo toho považovány za náhodné procesy, v takovém případě jsou zapotřebí různé definice, založené na očekávaných hodnotách. Pro širokosmyslově stacionární náhodné procesy jsou autokorelace definovány jako

Pro procesy, které nejsou stacionární, to budou také funkce t, nebo n.

U procesů, které jsou také ergodické, může být očekávání nahrazeno limitem časového průměru. Autokorelace ergodického procesu je někdy definována jako nebo rovnána

Tyto definice mají tu výhodu, že dávají rozumné, dobře definované jednoparametrové výsledky pro periodické funkce, i když tyto funkce nejsou výstupem stacionárních ergodických procesů.

Alternativně mohou být signály, které trvají věčně, ošetřeny krátkodobou analýzou autokorelačních funkcí za použití integrálů s konečným časem. (Viz krátkodobá Fourierova transformace pro související proces.)

Multidimenzionální autokorelace je definována podobně. Například ve třech dimenzích by autokorelace čtvercového diskrétního signálu byla

Když jsou střední hodnoty odečteny od signálů před výpočtem autokorelační funkce, výsledná funkce se obvykle nazývá auto-kovarianční funkce.

V následujícím textu popíšeme vlastnosti pouze jednorozměrných autokorelací, protože většina vlastností se snadno přenáší z jednorozměrného případu do vícerozměrných případů.

Autokorelace v regresní analýze

V regresní analýze využívající data časových řad je autokorelace reziduí („chybové termíny“, v ekonometrii) problém a vede ke vzestupnému zkreslení odhadů statistické významnosti koeficientových odhadů, jako je statistika t. Tradičním testem na přítomnost autokorelace prvního řádu je Durbinova-Watsonova statistika nebo, pokud vysvětlující proměnné zahrnují zpožděnou závislou proměnnou, Durbinova h statistika. Flexibilnějším testem, zahrnujícím
autokorelaci vyšších řádů a použitelným bez ohledu na to, zda regresory zahrnují zpoždění závislé proměnné, je Breuschův-Godfreyův test. Ten zahrnuje pomocnou regresi, při níž se zbytky získané odhadem modelu úroků regresují na a) původních regresorech a b) k zaostávání reziduí, kde k je pořadí testu. Nejjednodušší verzí zkušební statistiky z této
pomocné regrese je TR2, kde T je velikost vzorku a R2 je koeficient určení. Za nulové hypotézy o neexistenci autokorelace je tato statistika
asymptoticky rozložena jako Χ2 s k stupni volnosti.

Mezi reakce na autokorelaci patří diferenciace dat a použití zpožďovacích struktur při odhadu.