Mannův-Whitneyho U test

Mannův-Whitneyho U test (nazývaný také Mann-Whitney-Wilcoxonův (MWW), Wilcoxonův rank-sum test nebo Wilcoxonův-Mann-Whitneyho test) je neparametrický test pro posouzení, zda dva nezávislé vzorky pozorování mají stejně velké hodnoty. Je to jeden z nejznámějších neparametrických testů významnosti. Původně jej navrhl Frank Wilcoxon v roce 1945 pro stejně velké vzorky a na libovolně velké vzorky a další způsoby jej rozšířili H. B. Mann a D. R. Whitney (1947). MWW je prakticky totožný s provedením běžného parametrického dvouvýběrového t-testu na datech po seřazení nad kombinovanými vzorky.

Předpoklady a formální vyjádření hypotéz

Ačkoli Mann a Whitney (1947) vytvořili MWW test za předpokladu spojitých odpovědí s alternativní hypotézou, že jedno rozdělení je stochasticky větší než druhé, existuje mnoho jiných způsobů, jak formulovat nulovou a alternativní hypotézu tak, aby MWW test poskytl platný test.

Velmi obecnou formulací je předpoklad, že:

Pokud přidáme přísnější předpoklady, než jsou ty výše uvedené, například že odpovědi jsou považovány za spojité a alternativou je posun polohy (tj. F1(x) = F2(x + δ)), pak můžeme interpretovat významný MWW test jako ukazující významný rozdíl v mediánech. Za tohoto předpokladu posunu polohy můžeme MWW interpretovat také jako posouzení, zda Hodgesův-Lehmannův odhad rozdílu v centrální tendenci mezi oběma populacemi je nulový. Hodges-Lehmannův odhad pro tento problém dvou vzorků je medián všech možných rozdílů mezi pozorováním v prvním vzorku a pozorováním v druhém vzorku.

Test zahrnuje výpočet statistiky, obvykle nazývané U, jejíž rozdělení při nulové hypotéze je známé. V případě malých vzorků je rozdělení tabulkové, ale pro velikosti vzorků nad ~20 existuje dobrá aproximace pomocí normálního rozdělení. Některé knihy uvádějí v tabulkách statistiku ekvivalentní U, například součet řad v jednom ze vzorků, nikoliv samotné U.

U test je součástí většiny moderních statistických balíků. Lze jej také snadno vypočítat ručně, zejména pro malé vzorky. Existují dva způsoby, jak to provést.

U malých vzorků se doporučuje přímá metoda. Je velmi rychlá a umožňuje nahlédnout do významu statistiky U.

Doporučujeme:  1963

Pro větší vzorky lze použít vzorec:

Maximální hodnota U je součinem velikostí obou vzorků. V takovém případě by „jiné“ U bylo 0. Mannovo-Whitneyho U odpovídá ploše pod křivkou operační charakteristiky přijímače, kterou lze snadno vypočítat

Ukázka metod výpočtu

Předpokládejme, že Ezop není spokojen se svým klasickým pokusem, v němž jedna želva porazila v závodě jednoho zajíce, a rozhodne se provést test významnosti, aby zjistil, zda lze výsledky rozšířit na želvy a zajíce obecně. Shromáždí vzorek šesti želv a šesti zajíců a nechá je všechny běžet jeho závod. Pořadí, v jakém doběhnou do cíle (jejich pořadí od prvního k poslednímu), je následující, přičemž T píše pro želvu a H pro zajíce:

Ilustrace předmětu zkoušky

Druhý příklad ilustruje, že Mann-Whitneyova metoda netestuje rovnost mediánů. Uvažujme jiný závod zajíců a želv s 19 účastníky každého druhu, v němž jsou výsledky následující:

Mediánová želva se zde nachází na 19. místě, čímž vlastně překonává mediánového zajíce, který se nachází na 20. místě. Hodnota U (pro zajíce) je však 100 (pomocí výše popsané rychlé metody výpočtu vidíme, že každého z 10 zajíců porazí 10 želv, takže U = 10 × 10). Konzultace s tabulkami nebo použití níže uvedené aproximace ukazuje, že tato hodnota U poskytuje významný důkaz, že zajíci mají tendenci si vést lépe než želvy (p < 0,05, dvouvýběrový test). Je zřejmé, že se jedná o extrémní rozdělení, které by bylo snadno odhalitelné, ale ve větším vzorku by se něco podobného mohlo stát, aniž by to bylo tak zřejmé. Všimněte si, že problém zde nespočívá v tom, že by obě rozdělení hodností měla různé rozptyly; jsou to zrcadlové obrazy jeden druhého, takže jejich rozptyly jsou stejné, ale mají velmi rozdílné šikmosti.

U velkých vzorků je U přibližně normálně rozděleno. V takovém případě je standardizovaná hodnota

kde mU a σU jsou střední hodnota a směrodatná odchylka U, je přibližně standardní normální odchylka, jejíž významnost lze ověřit v tabulkách normálního rozdělení. mU a σU jsou dány vztahem

Doporučujeme:  Havraní paradox

Vzorec pro směrodatnou odchylku je složitější, pokud se jedná o vyrovnané pořadí; celý vzorec je uveden v učebnicích, na které je odkazováno níže. Pokud je však počet remíz malý (a zejména pokud neexistují velká pásma remíz), lze remízy při ručních výpočtech ignorovat. Počítačové statistické balíky používají správně upravený vzorec jako rutinní záležitost.

Všimněte si, že jelikož U1 + U2 = n1 n2, je průměr n1 n2/2 použitý v normální aproximaci průměrem obou hodnot U. Proto bude absolutní hodnota vypočtené statistiky z stejná bez ohledu na to, jakou hodnotu U použijeme.

Srovnání se Studentovým t-testem

U-test je užitečný ve stejných situacích jako Studentův t-test nezávislých vzorků a vyvstává otázka, kterému z nich dát přednost.

Celkově lze říci, že díky robustnosti je MWW použitelnější než t test a pro velké vzorky z normálního rozdělení je ztráta účinnosti ve srovnání s t testem pouze 5 %, takže lze MWW doporučit jako výchozí test pro porovnávání intervalových nebo ordinálních měření s podobným rozdělením.

Vztah mezi účinností a výkonem v konkrétních situacích však není triviální. U malých vzorků by se měla zkoumat účinnost MWW vs t.

Pokud nás zajímá pouze stochastické uspořádání obou populací (tj. pravděpodobnost shody P(Y > X)), lze Wilcoxonův-Mannův-Whitneyho test použít i v případě, že se tvary rozdělení liší. Pravděpodobnost shody se přesně rovná ploše pod křivkou operační charakteristiky přijímače (AUC), která se v této souvislosti často používá[cit. dle potřeby].
Pokud si přejeme jednoduchou interpretaci posunu, neměl by se U test používat, pokud jsou rozdělení obou vzorků velmi odlišná, protože může poskytnout chybně významné výsledky.

V této situaci je pravděpodobné, že verze t-testu s nerovnoměrnými rozptyly poskytne spolehlivější výsledky, ale pouze v případě, že platí normalita.

Alternativně někteří autoři (např. Conover) doporučují transformovat data na ranky (pokud již nejsou ranky) a poté provést t-test na transformovaných datech, přičemž použitá verze t-testu závisí na tom, zda existuje podezření, že populační rozptyly jsou rozdílné. Transformace pořadí nezachovává rozptyly, takže je těžké si představit, jak by to pomohlo.

Doporučujeme:  Kritická teorie

Brown-Forsytheho test byl navržen jako vhodný neparametrický ekvivalent F testu pro rovnost rozptylů.

U test souvisí s řadou dalších neparametrických statistických postupů. Je například ekvivalentní Kendallovu korelačnímu koeficientu τ, pokud je jedna z proměnných binární (tj. může nabývat pouze dvou hodnot).

Statistika zvaná ρ, která je lineárně spojena s U a hojně využívána ve studiích kategorizace (diskriminační učení zahrnující pojmy), se vypočítá vydělením U jeho maximální hodnotou pro dané velikosti vzorků, což je jednoduše n1 × n2. ρ je tedy neparametrická míra překrývání dvou rozdělení; může nabývat hodnot mezi 0 a 1 a je to odhad P(Y > X) + 0,5 P(Y = X), kde X a Y jsou náhodně vybraná pozorování z obou rozdělení. Obě krajní hodnoty představují úplné oddělení rozdělení, zatímco ρ o hodnotě 0,5 představuje úplné překrytí. Tuto statistiku poprvé navrhl Richard Herrnstein (viz Herrnstein a kol., 1976). Užitečnost statistiky ρ je vidět na výše použitém lichém příkladu, kdy dvě rozdělení, která se v U-testu výrazně lišila, měla přesto téměř shodné mediány: hodnota ρ je v tomto případě přibližně 0,723 ve prospěch zajíců, což správně odráží skutečnost, že i když medián želvy porazil medián zajíce, zajíci si společně vedli lépe než želvy.

Příklad výkazu výsledků

Při uvádění výsledků Mannova-Whitneyho testu je důležité uvést:

V praxi se může stát, že některé z těchto informací již byly poskytnuty, a při rozhodování o tom, zda je třeba je opakovat, je třeba použít zdravý rozum. Typická zpráva může být následující,

Výpověď, která plně odpovídá statistickému stavu testu, by mohla být následující,

Málokdy bychom však našli tak rozsáhlou zprávu v dokumentu, jehož hlavním tématem není statistická inference.