Analýza rozptylu

Analýza rozptylu (ANOVA) je ve statistice soubor statistických modelů a s nimi spojených postupů, v nichž se pozorovaný rozptyl rozděluje na složky způsobené různými vysvětlujícími proměnnými. Původní techniky analýzy rozptylu byly vyvinuty statistikem a genetikem R. A. Fisherem ve 20. a 30. letech 20. století a někdy se označují jako Fisherova ANOVA nebo Fisherova analýza rozptylu, a to kvůli použití Fisherova F-distribuce jako součásti testu statistické významnosti.

Existují tři koncepční třídy těchto modelů:

V praxi existuje několik typů ANOVA v závislosti na počtu ošetření a způsobu jejich aplikace na subjekty v experimentu:

Model analýzy rozptylu s pevnými efekty se používá v situacích, kdy experimentátor aplikuje na subjekty experimentu několik ošetření, aby zjistil, zda se hodnoty proměnné odpovědi změní. To umožňuje experimentátorovi odhadnout rozsah hodnot proměnné odezvy, které by dané ošetření vyvolalo v populaci jako celku.

Modely s náhodnými efekty se používají v případě, že ošetření nejsou fixní. K tomu dochází tehdy, když jsou různá ošetření (známá také jako úrovně faktorů) vybrána z větší populace. Vzhledem k tomu, že samotná ošetření jsou náhodnými proměnnými, liší se některé předpoklady a způsob porovnání ošetření od modelu Anova 1.

Většina modelů s náhodnými nebo smíšenými efekty se nezabývá vyvozováním závěrů týkajících se konkrétních vybraných faktorů. Uvažujme například velký výrobní závod, v němž mnoho strojů vyrábí stejný výrobek. Statistik studující tento závod by měl jen velmi malý zájem porovnávat tři konkrétní stroje mezi sebou. Spíše ho zajímají závěry, které lze učinit pro všechny stroje, například jejich variabilita a celkový průměr.

To dohromady tvoří společný předpoklad, že rezidua chyb jsou nezávisle, identicky a normálně rozdělena pro modely s fixními efekty, resp:

Anova 2 a 3 mají složitější předpoklady o očekávané hodnotě a rozptylu reziduí, protože samotné faktory mohou pocházet z populace.

Rozdělení součtu čtverců

Základní technikou je rozdělení celkového součtu čtverců na složky související s vlivy použitými v modelu. Uvádíme například model pro zjednodušenou ANOVA s jedním typem ošetření na různých úrovních.

Počet stupňů volnosti (zkráceně ) lze rozdělit podobným způsobem a určuje chí-kvadrát rozdělení, které popisuje související součty čtverců.

F-test se používá pro porovnání složek celkové odchylky. Například u jednosměrné nebo jednofaktorové Anovy se statistická významnost testuje porovnáním F testové statistiky.

na F-distribuci s I-1,nT stupni volnosti. Použití F-rozdělení je přirozeným kandidátem, protože testovací statistika je kvocientem dvou středních součtů čtverců, které mají chí-kvadrát rozdělení.

Jak poprvé navrhli Conover a Iman v roce 1981, v mnoha případech, kdy data nesplňují předpoklady ANOVY, lze nahradit každou původní hodnotu dat její hodností od 1 pro nejmenší po N pro největší a poté provést standardní výpočet ANOVY na datech transformovaných na hodnost. „Tam, kde dosud nebyly vyvinuty ekvivalentní neparametrické metody, jako například pro dvoucestný design, vede transformace pořadí k testům, které jsou odolnější vůči nenormálnosti a odolnější vůči odlehlým hodnotám a nekonstantnímu rozptylu než ANOVA bez transformace.“ (Helsel & Hirsch, 2002, strana 177).
Seaman a další (1994) si však všimli, že transformace pořadí podle Conovera a Imana (1981) není vhodná pro testování interakcí mezi efekty ve faktorovém designu, protože může způsobit zvýšení chyby typu I (alfa chyba). Kromě toho, pokud jsou oba hlavní faktory významné, je síla pro detekci interakcí malá.

Skupině A je podávána vodka, skupině B gin a skupině C placebo. Všechny skupiny jsou poté testovány paměťovým úkolem. K posouzení účinku jednotlivých léčebných postupů (tj. vodky, ginu a placeba) lze použít jednocestnou analýzu ANOVA.

Skupině A je podána vodka a je testována na paměťový úkol. Stejné skupině je dopřán pětidenní odpočinek a poté je experiment opakován s ginem. Postup se opakuje s použitím placeba. K posouzení vlivu vodky oproti vlivu placeba lze použít jednocestnou ANOVA s opakovanými měřeními.

V experimentu, který testuje vliv očekávání, jsou pokusné osoby náhodně rozděleny do čtyř skupin:

Každá skupina je poté testována na paměťový úkol. Výhodou tohoto uspořádání je, že lze testovat více proměnných najednou, místo aby se prováděly dva různé experimenty. Experimentem lze také zjistit, zda jedna proměnná ovlivňuje druhou proměnnou (tzv. interakční efekty). Faktorovou ANOVA (2×2) lze použít k posouzení účinku očekávání vodky nebo placeba a skutečného příjmu jedné z nich.

Průměr (aritmetický, geometrický) – Medián – Modus – Výkon – Rozptyl – Směrodatná odchylka

Testování hypotéz – Významnost – Nulová hypotéza / Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meierův test – Logrankův test – Míra selhání – Modely proporcionálních rizik

Normální (zvonová křivka) – Poissonova – Bernoulliho

Zkreslující proměnná – Pearsonův korelační koeficient součinu a momentu – Korelace pořadí (Spearmanův korelační koeficient pořadí, Kendallův korelační koeficient pořadí tau)

Lineární regrese – Nelineární regrese – Logistická regrese