Ve statistice je Mann-Whitneyho U test (také nazývaný Mann-Whitney-Wilcoxon (MWW), Wilcoxonův rank-sum test nebo Wilcoxonův-Mannův-Whitneyův test) neparametrický test pro posouzení, zda dva nezávislé vzorky pozorování mají stejně velké hodnoty. Je to jeden z nejznámějších neparametrických testů významnosti. Byl navržen původně Frankem Wilcoxonem v roce 1945 pro stejnou velikost vzorku a rozšířen na libovolnou velikost vzorku a jinými způsoby H. B. Mannem a D. R. Whitneym (1947). MWW je prakticky identický s provedením obyčejného parametrického dvouvzorkového t testu na datech po seřazení nad kombinovanými vzorky.
Předpoklady a formální vyjádření hypotéz
Ačkoli Mann a Whitney (1947) vyvinuli MWW test za předpokladu spojitých odpovědí s alternativní hypotézou, že jedno rozdělení je stochasticky větší než druhé, existuje mnoho dalších způsobů, jak formulovat nulové a alternativní hypotézy tak, aby MWW test dal platný test.
Velmi obecná formulace je předpokládat, že:
Přidáme-li přísnější předpoklady, než jsou výše uvedené, tedy že odezvy jsou předpokládány kontinuálně a alternativou je posun polohy (tj. F1(x) = F2(x + δ)), pak můžeme interpretovat významný MWW test jako vykazující významný rozdíl mediánů. Za tohoto předpokladu posunu polohy můžeme také interpretovat MWW jako posouzení, zda Hodgesův–Lehmannův odhad rozdílu centrální tendence mezi oběma populacemi je nulový. Hodgesův–Lehmannův odhad pro tento problém dvou vzorků je medián všech možných rozdílů mezi pozorováním v prvním vzorku a pozorováním ve druhém vzorku.
Test zahrnuje výpočet statistiky, obvykle nazývané U, jejíž rozdělení za nulové hypotézy je známo. V případě malých vzorků je rozdělení dáno do tabulky, ale pro velikosti vzorků nad ~20 existuje dobrá aproximace za použití normálního rozdělení. Některé knihy uvádějí do tabulky statistiky ekvivalentní U, například součet hodností v jednom ze vzorků, nikoliv U samotné.
Test U je součástí většiny moderních statistických balíčků. Snadno se také vypočítává ručně, zejména u malých vzorků. Existují dva způsoby, jak toho dosáhnout.
U malých vzorků se doporučuje přímá metoda. Je velmi rychlá a dává přehled o významu statistiky U.
Pro větší vzorky lze použít vzorec:
Maximální hodnota U je součinem velikostí vzorků pro oba vzorky. V takovém případě by „druhé“ U bylo 0. Mann-Whitneyho U odpovídá ploše pod křivkou provozní charakteristiky přijímače, kterou lze snadno vypočítat
Ilustrace výpočetních metod
Předpokládejme, že Ezop je nespokojen se svým klasickým experimentem, ve kterém se zjistilo, že jedna želva porazila v závodě jednoho zajíce, a rozhodne se provést test významnosti, aby zjistil, zda by výsledky mohly být rozšířeny na želvy a zajíce obecně. Sbírá vzorek 6 želv a 6 zajíců a nutí je všechny běžet svůj závod. Pořadí, ve kterém dosáhnou cílového místa (jejich pořadí, od prvního do posledního), je následující, píše T pro želvu a H pro zajíce:
Ilustrace předmětu zkoušky
Druhý příklad ilustruje, že Mann-Whitney netestuje na rovnost mediánů. Vezměme si jiný závod zajíců a želv s 19 účastníky každého druhu, v němž jsou výsledky následující:
Střední želva zde nastupuje na pozici 19, a tak vlastně překonává středního zajíce, který nastupuje na pozici 20. Hodnota U (pro zajíce) je však 100 (při použití rychlé metody výpočtu popsané výše vidíme, že každý z 10 zajíců je poražen 10 želvami, takže U = 10 × 10). Konzultace tabulek, nebo použití aproximace níže, ukazuje, že tato hodnota U dává významný důkaz, že zajíci mají tendenci vést si lépe než želvy (p < 0,05, dvouocasé). Je zřejmé, že se jedná o extrémní rozdělení, které by bylo snadno zpozorováno, ale ve větším vzorku by se mohlo stát něco podobného, aniž by to bylo tak zřejmé. Všimněte si, že problém zde není v tom, že obě rozdělení řad mají rozdílné odchylky; jsou to zrcadlové obrazy sebe navzájem, takže jejich odchylky jsou stejné, ale mají velmi rozdílnou šikmost.
U velkých vzorků je U přibližně normálně rozloženo. V takovém případě je standardizovaná hodnota
kde mU a σU jsou průměr a směrodatná odchylka U, je přibližně směrodatná odchylka normálu, jejíž význam lze zkontrolovat v tabulkách normálního rozdělení. mU a σU jsou dány
Vzorec pro směrodatnou odchylku je složitější v přítomnosti vázaných hodností; úplný vzorec je uveden v níže uvedených učebnicích. Pokud je však počet vázanek malý (a zejména pokud neexistují velké vázané pásy), lze vazby ignorovat při ručních výpočtech. Počítačové statistické balíčky používají správně upravený vzorec jako rutinní záležitost.
Všimněte si, že vzhledem k tomu, že U1 + U2 = n1 n2, je průměr n1 n2/2 použitý v normální aproximaci průměrem obou hodnot U. Proto absolutní hodnota z vypočtené statistiky bude stejná bez ohledu na použitou hodnotu U.
Srovnání se studentským t-testem
U test je užitečný ve stejných situacích jako nezávislé vzorky Studentův t-test a vyvstává otázka, který z nich by měl být preferován.
Celkově je díky robustnosti MWW použitelnější než t test a u velkých vzorků z normálního rozložení je ztráta účinnosti oproti t testu pouze 5%, takže lze MWW doporučit jako výchozí test pro srovnání intervalových nebo ordinálních měření s podobnými rozloženími.
Vztah mezi účinností a výkonem v konkrétních situacích ale není triviální. U malých velikostí vzorku by se měl zkoumat výkon MWW vs t.
Pokud se člověk zajímá pouze o stochastické řazení obou populací (tj. pravděpodobnost shody P(Y > X)), lze použít Wilcoxonův-Mannův-Whitneyův test i v případě, že tvary rozdělení jsou odlišné. Pravděpodobnost shody je přesně rovna ploše pod křivkou provozní charakteristiky přijímače (AUC), která je často používána v kontextu.[citace nutná]
Pokud člověk touží po jednoduché interpretaci posunu, U test by neměl být použit v případě, že rozdělení obou vzorků jsou velmi odlišná, protože může dát chybně významné výsledky.
V takové situaci je pravděpodobné, že verze t testu s nerovnými odchylkami poskytne spolehlivější výsledky, ale pouze v případě, že platí normalita.
Alternativně někteří autoři (např. Conover) navrhují transformovat data na ranky (pokud to již nejsou ranky) a pak provést t test na transformovaných datech, verzi t testu použitou v závislosti na tom, zda je či není podezření, že populační rozptyly jsou odlišné. Rank transformace nezachovávají rozptyly, takže je obtížné si představit, jak by to pomohlo.
Brown-Forsythův test byl navržen jako vhodný neparametrický ekvivalent F testu pro stejné odchylky.
U test souvisí s řadou jiných neparametrických statistických postupů. Například je ekvivalentní Kendallovu korelačnímu koeficientu τ, pokud je jedna z proměnných binární (to znamená, že může nabývat pouze dvou hodnot).
Statistika zvaná ρ, která je lineárně příbuzná s U a široce používaná ve studiích kategorizace (učení diskriminace zahrnující pojmy), se vypočítá vydělením U její maximální hodnotou pro dané velikosti vzorku, která je jednoduše n1 × n2. ρ je tedy neparametrickým měřítkem překrytí mezi dvěma distribucemi; může nabývat hodnot mezi 0 a 1 a je odhadem P(Y > X) + 0,5 P(Y = X), kde X a Y jsou náhodně vybraná pozorování z obou distribucí. Obě extrémní hodnoty představují úplné oddělení distribucí, zatímco ρ 0,5 představuje úplné překrytí. Tuto statistiku poprvé navrhl Richard Herrnstein (viz Herrnstein a kol., 1976). Užitečnost statistiky ρ lze vidět v případě výše použitého lichého příkladu, kdy dvě distribuce, které se výrazně lišily při U-testu, měly nicméně téměř identické mediány: hodnota ρ je v tomto případě přibližně 0,723 ve prospěch zajíců, což správně odráží skutečnost, že i když střední želva porazila středního zajíce, zajíci si společně vedli lépe než želvy dohromady.
Příklad prohlášení o výsledcích
Při hlášení výsledků Mann-Whitneyho testu je důležité uvést:
V praxi mohou být některé z těchto informací již dodány a při rozhodování, zda je opakovat, by se mělo používat zdravého rozumu. Může běžet typická sestava,
Mohlo by se spustit prohlášení, které plně odpovídá statistickému stavu testu,
Bylo by však vzácné najít takto rozšířenou zprávu v dokumentu, jehož hlavním tématem nebyla statistická inference.