Simpsonův paradox

Simpsonův paradox (nebo také Yule-Simpsonův jev) je statistický paradox popsaný E. H. Simpsonem v roce 1951
a G. U. Yulem v roce 1903, ve kterém se zdají být úspěchy několika skupin obráceny, když se skupiny spojí. Tento zdánlivě nemožný výsledek se vyskytuje překvapivě často ve společenských vědách a lékařské statistice a nastává, když musí být v kombinovaném hodnocení použita váhová proměnná, která není relevantní pro hodnocení jednotlivých skupin.

Pro ilustraci paradoxu předpokládejme, že dva lidé, Lisa a Bart, se pustí na Psychology Wiki V prvním týdnu Lisa vylepší 60 procent článků, které edituje, zatímco Bart vylepší 90 procent článků, které edituje. Ve druhém týdnu Lisa vylepší jen 10 procent článků, které edituje, zatímco Bart vylepší 30 procent.

V obou případech si Bart vylepšil mnohem vyšší procento článků než Lisa – ale když se oba testy zkombinují, Lisa si vylepšila mnohem vyšší procento než Bart!

Tento podivně vypadající výsledek vzniká proto, že celkový součet byl vypočítán s vědomím skutečného počtu článků, které byly každý editován a které se týden od týdne měnily. Tato informace se stala užitečnou až po vytvoření kombinace. V prvním týdnu Lisa edituje 100 článků, vylepšila 60 z nich, zatímco Bart edituje pouze 10 článků, vylepšuje všechny až na jeden. Ve druhém týdnu Lisa edituje pouze 10 článků, vylepšuje jeden, zatímco Bart edituje 100 článků, vylepšuje 30. Když se zkombinuje práce za dva týdny, oba editovali stejný počet článků, přesto Lisa vylepšila 55% z nich (celkem 61), zatímco Bart vylepšil pouze 35% z nich (celkem 39).

Zdá se, že oba soubory dat odděleně podporují určitou hypotézu, ale při společném posouzení podporují opačnou hypotézu.

Doporučujeme:  Statistická síla

Pro rekapitulaci uvádíme několik poznámek, které budou užitečné později:

V obou případech byly Bartovy úpravy úspěšnější než Lisiny. Když ale zkombinujeme oba soubory, zjistíme, že Lisa i Bart editovali 110 článků a:

Bart je lepší pro každý set, ale horší celkově!

Aritmetický základ paradoxu je nekontroverzní. Pokud a cítíme, že musí být větší než . Nicméně pokud jsou použity různé váhy k vytvoření celkového skóre pro každou osobu, pak tento pocit může být zklamán. Zde je první test vážen pro Lisu a pro Barta, zatímco váhy jsou obráceny na druhý test.

Extrémnějším převíjením lze celkové skóre A posunout směrem nahoru k 60% a skóre B směrem dolů k 30%.

Kdo je více vzdělaný? Lízini a Bártovi společní přátelé si myslí, že Líza je lepší – její celková úspěšnost je vyšší. Je však možné příběh převyprávět tak, aby bylo zřejmé, že Bárt je pilnější. Dejme tomu, že by šlo o následující případ:

V prvním týdnu se Lisa s Bartem motají kolem oprav pravopisných chyb nebo náhodné amerikanizace stránek. Ve druhém týdnu oba zkoušejí ruce jako slovaři, což v některých případech přidává na přehlednosti a u většiny vede k laterální změně. Číselné údaje jsou stejné jako předtím: Bart je lepší v obou úkolech, ale jeho celková úspěšnost je horší, protože téměř všechny jeho změny (100 ze 110) vyžadovaly určitou dávku přemýšlení, zatímco téměř všechny Lisiny (100 ze 110) byly triviální. Spojení úspěchu s Lisou by v takovém případě bylo zavádějící, až falešné.

Paradox pálkařského průměru

Nejčastějším příkladem tohoto paradoxu v Americe je průměr odpalů v baseballu. Je možné – a ve vzácných případech se to skutečně stalo – aby jeden hráč odpálil vyšší průměr odpalů než jiný hráč během první poloviny roku, a aby to udělal znovu během druhé poloviny, ale aby měl nižší průměr odpalů za celý rok, jak ukazuje tento příklad:

Doporučujeme:  Introverze

Sportovní sabermetrik Bill James na tento fenomén upozornil.

Příklad léčby ledvinového kamene

To je příklad z reálného života z lékařské studie srovnávající úspěšnost dvou léčby ledvinových kamenů.

První tabulka ukazuje celkovou úspěšnost a počty léčeb pro obě léčby.

Zdá se, že to ukazuje, že léčba B je účinnější. Pokud však zahrneme údaje o velikosti ledvinového kamene, stejná sada léčebných postupů odhalí jinou odpověď.

Informace o velikosti kamene zvrátily náš závěr o účinnosti každé léčby. Nyní je léčba A považována za účinnější v obou případech. V tomto příkladu číhající proměnná (nebo matoucí proměnná) velikosti kamene nebyla dříve známa jako důležitá, dokud nebyly zahrnuty její účinky.

Které zacházení je považováno za lepší, je určeno nerovností mezi dvěma poměry (úspěchy/celkem).
Obrácení nerovnosti mezi těmito poměry, které vytváří Simpsonův paradox, se děje proto, že se vyskytují dva účinky společně:

Případ sexuální zaujatosti v Berkeley

Jeden z nejznámějších příkladů reálného života Simpsonova paradoxu nastal, když U.C. Berkeley byla žalována za zaujatost vůči ženám, které se hlásily na postgraduální studium. Údaje o přijetí ukázaly, že muži, kteří se hlásili, byli častěji přijímáni než ženy, a rozdíl byl tak velký, že bylo nepravděpodobné, že by to byla náhoda.

Nicméně při zkoumání jednotlivých oddělení bylo zjištěno, že žádné oddělení nebylo výrazně zaujaté vůči ženám; ve skutečnosti většina oddělení měla malou (a ne příliš významnou) zaujatost vůči mužům.

Vysvětlení se ukázalo, že ženy mají tendenci podávat žádosti na odděleních s nízkou mírou přijetí, zatímco muži mají tendenci podávat žádosti na odděleních s vysokou mírou přijetí.

Simpsonův paradox nám ukazuje extrémní příklad důležitosti zahrnutí dat o možných matoucích proměnných při pokusu o výpočet korelací.

Pro stručnou historii vzniku paradoxu viz záznamy o Simpsonův Paradox a Spurious korelace v