Andersonův–Darlingův test

Ve statistice je Andersonův–Darlingův test, pojmenovaný po Theodoru Wilburu Andersonovi (1918–?) a Donaldu A. Darlingovi (1915–?), kteří ho vynalezli v roce 1952, statistickým testem, zda existuje důkaz, že daný vzorek dat nevznikl z daného rozdělení pravděpodobnosti. Ve své základní podobě test předpokládá, že v testovaném rozdělení neexistují žádné parametry, které by bylo možné odhadnout, a v takovém případě je test a jeho soubor kritických hodnot bez rozdělení. Test se však nejčastěji používá v souvislostech, kdy se testuje rodina rozdělení, a v takovém případě je třeba parametry této rodiny odhadnout a vzít to v úvahu při úpravě buď statistiky testu, nebo jeho kritických hodnot.

Pokud se aplikuje na testování, zda normální rozdělení adekvátně popisuje soubor dat, je to jeden z nejsilnějších statistických nástrojů pro detekci většiny odchylek od normálnosti.

Kromě jeho použití jako testu vhodnosti pro rozvody může být použit v odhadu parametrů jako základ pro určitou formu postupu odhadu minimální vzdálenosti.

K-sample Anderson-Darlingovy testy jsou k dispozici pro testování, zda lze modelovat několik sbírek pozorování jako pocházejících z jedné populace, kde distribuční funkce nemusí být specifikována.

Andersonův–Darlingův test posuzuje, zda vzorek pochází ze specifikované distribuce. Využívá skutečnost, že při zadání hypotetického základního rozdělení a za předpokladu, že data z tohoto rozdělení skutečně pocházejí, mohou být data transformována na rovnoměrné rozdělení. Data transformovaného vzorku pak mohou být testována na rovnoměrnost pomocí distančního testu (Shapiro 1980). Vzorec pro statistický test pro posouzení, zda data (povšimněte si, že data musí být seřazena) pocházejí z distribuce s kumulativní distribuční funkcí (CDF) je

Statistika testu pak může být porovnána s kritickými hodnotami teoretického rozdělení. Všimněte si, že v tomto případě nejsou odhadovány žádné parametry ve vztahu k distribuční funkci F.

Doporučujeme:  Komunitní budova

Testy pro rodiny distribucí

V podstatě stejná statistická hodnota testu může být použita v testu uložení rodiny rozdělení, ale pak musí být porovnána s kritickými hodnotami vhodnými pro tuto rodinu teoretických rozdělení a závislými také na metodě použité pro odhad parametrů.

Stephens (1974) v porovnávání síly zjistil, že je jednou z nejlepších statistik Empirické distribuční funkce pro zjištění většiny odchylek od normálnosti. Jedinou statistickou blízkostí byla Cramérova–von Misesova testovací statistika. Lze ji použít s malými velikostmi vzorku n ≤ 25. Velmi velké velikosti vzorku mohou odmítnout předpoklad normálnosti jen s mírnými nedokonalostmi, ale průmyslová data s velikostmi vzorku 200 a více prošla Andersonovým–Darlingovým testem. [citace nutná]

(Pokud se zkouší na normální rozložení proměnné X)

1) Údaje , Pro , Proměnné, která by měla být testována je řazena od nízké po vysokou.

2) Průměr a směrodatná odchylka jsou vypočteny ze vzorku .

3) Hodnoty jsou standardizovány pro vytváření nových hodnot jako

4) Se standardním normálním CDF , se vypočítá pomocí

Alternativním výrazem, v němž je v každém kroku shrnutí pojednána pouze jediná poznámka, je:

5) , přibližné nastavení pro velikost vzorku, se vypočítá pomocí

6) Pokud překročí hodnotu 0,751, pak je hypotéza normality odmítnuta pro test 5% úrovně.

Poznámka 1: Pokud s = 0 nebo jakékoliv (0 nebo 1), pak nemůže být vypočteno a není definováno.

Testy pro jiná rozdělení

Výše se předpokládalo, že proměnná je testována na normální rozdělení. Jakákoliv jiná skupina rozdělení může být testována, ale test pro každou skupinu je realizován pomocí jiné modifikace základní testovací statistiky a ta je odkazována na kritické hodnoty specifické pro danou skupinu rozdělení. Testy pro (dvouparametrové) logaritmicko-normální rozdělení mohou být realizovány transformací dat pomocí logaritmu a použitím výše uvedeného testu pro normalitu. Podrobnosti o požadovaných modifikacích testovací statistiky a o kritických hodnotách pro normální rozdělení a exponenciální rozdělení zveřejnila společnost Pearson & Hartley (1972, tabulka 54). Podrobnosti o těchto rozděleních, s přidáním Gumbelova rozdělení, uvádí také společnost Shorak & Wellner (1986, p239). Podrobnosti o logistickém rozdělení uvádí Stephens (1979). Test pro (dva parametry) Weibullovo rozdělení lze získat využitím skutečnosti, že logaritmus Weibullovy proměnné má Gumbelovo rozdělení.

Doporučujeme:  Hněv

Testy neparametrického k-vzorku

Scholz F.W. a Stephens M.A. (1987) rozebírají test založený na Andersonově-Darlingově stupnici shody mezi distribucemi, zda počet náhodných vzorků s možnou rozdílnou velikostí vzorku mohl vzniknout ze stejného rozdělení, kde toto rozdělení není specifikováno.