Analýza časových řad – Dobrá psychoterapie

Ve statistice, zpracování signálů a ekonometrii je časová řada posloupnost datových bodů, měřených obvykle v po sobě jdoucích časech, rozmístěných v (často jednotných) časových intervalech. Analýza časových řad zahrnuje metody, které se pokoušejí porozumět takovým časovým řadám, často buď porozumět základní teorii datových bodů (kde se vzaly? co je generovalo?), nebo vytvořit prognózy (predikce). Predikce časových řad je použití modelu pro predikci budoucích událostí na základě známých minulých událostí: pro predikci budoucích datových bodů před jejich měřením. Standardním příkladem je počáteční cena akcie na základě její minulé výkonnosti.

Jak ukázali Box a Jenkins ve své knize, modely pro data časových řad mohou mít mnoho podob a představovat různé stochastické procesy. Při modelování průměru procesu jsou tři široké třídy praktického významu: autoregresivní (AR) modely, integrované (I) modely a modely klouzavého průměru (MA) (proces MA souvisí, ale nesmí být zaměňován s konceptem klouzavého průměru ). Tyto tři třídy závisí lineárně na předchozích datových bodech a jsou podrobněji zpracovány v článcích autoregresivní modely klouzavého průměru (ARMA) a autoregresivní integrovaný klouzavý průměr (ARIMA). Autoegresivní frakcionálně integrovaný model klouzavého průměru (ARFIMA) zobecňuje první tři. Nelineární závislost na předchozích datových bodech je zajímavá kvůli možnosti vytvářet chaotické časové řady.

Mezi nelineárními časovými řadami existují modely, které reprezentují změny rozptylu v čase (heteroskedasticita). Tyto modely se nazývají autoregresivní podmíněná heteroskedasticita (ARCH) a kolekce zahrnuje širokou variabilitu reprezentace (GARCH, TARCH, EGARCH, FIGARCH, CGARCH, atd.). V poslední době si získaly oblibu metody založené na vlnkové transformaci (například lokálně stacionární vlnky a vlnkovitě rozložené neuronové sítě). Techniky ve více stupních (často označované jako multiresolution) rozkládají danou časovou řadu a pokoušejí se ilustrovat časovou závislost ve více měřítcích.

Pro analýzu časových řad se používá řada různých zápisů:

je běžný zápis, který určuje časovou řadu X, která je indexována přirozenými čísly. Jsme také zvyklí

Existují pouze dva předpoklady, ze kterých je teorie postavena:

Celkové znázornění autoregresivního modelu známého jako AR(p) je

Pokud má také normální rozložení, nazývá se normální bílý šum:

Analýza časových řad se provádí v mnoha aplikovaných oborech, od astrofyziky po geologii. Výběr modelu je často založen na základní assympatii na procesu generování dat. Vezměme si například dopravní tok, zde bychom plně očekávali periodické chování (s výbuchy ve špičce cestovní doby). V takové situaci lze uvažovat o aplikaci dynamické harmonické regrese (ta je velmi podobná datům leteckých společností, která jsou často analyzována ve statistické literatuře).

V poslední době se v geofyzice více používají metody časových řad (například analýza srážek a změny klimatu). V rámci průmyslu bude téměř každé odvětví nějakým způsobem provádět analýzu časových řad. Například u maloobchodu sledování a předpovídání tržeb. Analytici obvykle načtou svá data do statistického balíčku (příklady takových programů jsou R a S-Plus). Nejdůležitějším krokem je revize funkce autokorelace (ACF), která udává počet zpožděných pozorování, která mají být zahrnuta do jakéhokoli modelu časových řad (vždy je třeba analyzovat i funkci parciální autokorelace).

Obecně finanční řady často vyžadují nelineární modely (například ARCH), protože aplikace autoregresivních modelů často vede k modelu, který naznačuje, že předpovídat hodnotu zítřků, zde řekněme ceny akcií, závisí téměř výhradně na včerejší ceně akcií:

(kde α1 je blízko 1).

Robert Engle uznal důležitost zahrnutí zaostalých hodnot rozptylu řady. Obecně lze časovou řadu považovat za časovou doménu a/nebo frekvenční doménu. Tato dualita vedla k mnoha nedávným vývojům v analýze časových řad. Metody založené na vlnách jsou pokusem modelovat řady v obou doménách. Vlny jsou kompaktně podporované „malé vlny“, které při konvoluci se samotnou řadou (při škálování a barvení) poskytují analýzu časové závislosti řady podle měřítka. Takové metody založené na vlnách jsou často používány pro problémy změny klimatu.

Jedna další (a méně prozkoumaná) oblast analýzy časových řad považuje „dolování“ sérií za účelem reterospektivního extrahování know-legde. V literatuře se to označuje jako dolování dat časových řad (TSDM). Techniky v této oblasti často závisejí na „detekci rysů“. V podstatě se jedná o pokus najít „charakteristické“ chování sérií a využít ho k nalezení oblastí série, které se tohoto chování nedrží. Současné úsilí vede oddělení informatiky na Kalifornské univerzitě (Riverside).