Převzorkování (statistika)

Resampling je termín používaný ve statistice k popisu různých metod pro výpočet souhrnné statistiky pomocí podskupin dostupných dat (jackknife), náhodně kreslení s náhradou ze sady datových bodů (bootstrapping), nebo přepínání popisků na datových bodech při provádění testů významnosti (permutační test, také nazývaný exaktní test, randomizační test, nebo re-randomizační test).

Jackknife je statistická metoda, kterou poprvé vymyslel a aplikoval Richard von Mises. Souvisí s bootstrapem v tom smyslu, že obě metody se používají jak k odhadu a kompenzaci zkreslení, tak k odvození robustních odhadů standardních chyb a intervalů spolehlivosti. Obě metody mají společné to, že variabilita statistiky se odhaduje z variability v rámci vzorku, spíše než z parametrických předpokladů. Jackknife je méně obecná technika než bootstrap a zkoumá variabilitu vzorku jiným způsobem než bootstrap. Jackknifed statistika se vyvíjí systematickým vypouštěním podskupin dat po jednom a hodnocením výsledné variace ve studovaném parametru. (Mooney & Duval).

Jackknife a bootstrap mohou být v mnoha situacích použity k získání podobných výsledků. Rozdíl mezi nimi spočívá v tom, že při použití k získání odhadu standardní chyby statistiky poskytne bootstrapping mírně odlišné výsledky, když se proces opakuje na stejných datech, zatímco jackknife dá pokaždé přesně stejný výsledek.
Situace, kdy je jackknife považován za preferovanou alternativu, je analýza dat ze složitých vzorkovacích schémat, například vícestupňového vzorkování s různou výběrovou hmotností.

Preambule: Všechny statistické testy používají pozorování z datové sady k výpočtu testovací statistiky, která charakterizuje zajímavou hypotézu. Tato testovací statistika je pak porovnána s očekávanou referenční distribucí, aby se posoudila pravděpodobnost, že se vyskytne náhodně za nulové hypotézy. Pokud je pozorovaná pravděpodobnost, hodnota p, malá (hodnota 1/20 nebo méně je často používána v lékařských, ekonometrických nebo společenskovědních aplikacích), pak je nulová hypotéza odmítnuta a přijímá se doplňující, alternativní hypotéza.

permutační test – určitý typ statistického významnostního testu a někdy nazývaný randomizační test, re-randomizační test nebo exaktní test – je statistický test, ve kterém se získává referenční rozdělení prostoupením pozorovaných datových bodů napříč všemi možnými výsledky, za předpokladu souboru podmínek odpovídajících nulové hypotéze.
Teorie se vyvinula z prací R.A. Fishera a E.J.G. Pitmana ve 30. letech 20. století.

Doporučujeme:  Diskriminace na základě věku

Permutační testy tvoří větev neparametrické statistiky. Na rozdíl od permutačních testů se referenční rozdělení pro mnoho populárních „klasických“ statistických testů, jako je t-test, z-test a chi-kvadrátový test, získávají z teoretických pravděpodobnostních rozdělení. Mnoho výzkumníků se domnívá, že to ruší nebo přinejmenším kriticky oslabuje jejich použití, protože předpoklady vztahující se k teoretickým rozdělením k empiricky získaným zkušebním statistikám nemusí být platné. Rozsah, v jakém je to v různých reálných podmínkách pravda, je oblastí aktivního statistického zkoumání. Výzkumníci mohou být nuceni k těmto předpokladům v některých situacích, protože neexistuje jiná alternativa a neoptimální statistický test je obvykle považován za lepší než vůbec žádný.

Fisherův exaktní test je běžně používaný permutační test pro vyhodnocení vztahu mezi dvěma dichotomickými proměnnými a kontrastuje s Pearsonovým chi-kvadrátovým testem, který může být použit pro stejný účel. Když jsou velikosti vzorku malé, statistika chi-kvadrátového testu již nemůže být přesně porovnána s referenčním rozdělením chi-kvadrát a použití Fisherova exaktního testu se stává nejvhodnějším.

Všechny parametrické testy mají odpovídající verzi permutačního testu, která je definována použitím stejné testovací statistiky jako parametrický test, ale získává hodnotu p z permutačního rozdělení této statistiky podle vzorku, nikoliv z teoretického rozdělení odvozeného z parametrického předpokladu.
Tímto způsobem je například možné sestrojit permutační t-test, permutační chi-kvadrátový test asociace, permutační dvouvýběrový Kolmogorovův-Smirnovův test a tak dále.
Mnohé parametrické testy definují testovací statistiku jako poměr t/s, kde t měří odchylku pozorovatelného parametru od jeho očekávané hodnoty, když je nulová hypotéza pravdivá, a s je odhad standardní chyby t. Permutační test nemusí obecně brát v úvahu hodnotu s, protože to je pevná konstanta pro všechny permutace vzorku. To je výhoda při konstrukci nových testů permutace, protože nebude nutné najít výraz pro standardní chybu statistiky testu. Nalezení standardní chyby (nebo rozptylu) nové statistiky testu je často nejsložitější částí při vývoji nových testů významnosti, vyžadujících hluboké matematické znalosti. Takže konstrukce permutačního testu spíše než parametrického testu k vyřešení určitého problému může být považována za způsob nahrazení matematické dovednosti hrubým výpočetním výkonem.
Nejčastěji používané neparametrické testy jsou ve své původní podobě definovány jako permutační testy na hodnostech; patří mezi ně například Mann-Whitneyho U test a Spearmanův korelační test hodnosti. Pitmanova původní formulace (v roce 1937) obecného permutačního testu asociace dvou proměnných popisuje obecný testovací postup, který při aplikaci na dvě numerické proměnné v lineárních stupnicích dává permutační test Pearsonova korelačního koeficientu, při aplikaci na hodnocené datové body dává Spearmanův korelační test hodností, při aplikaci na jednu numerickou proměnnou a jeden dichotomus dává permutační t-test, při aplikaci na jednu hodnocenou proměnnou a jeden dichotomus dává Mann-Whitneyho U-test (také známý jako Wilcoxonův test hodnostního součtu) a při aplikaci na dvě dichotomózní proměnné dává Fisherův přesný test. Obecně je nejdůležitější výhodou permutačních testů to, že výsledky jsou spolehlivé i pro malé vzorky a když data silně porušují distribuční předpoklady odpovídajícího parametrického testu. U větších velikostí vzorků centrální limitní věta ve většině situací zajistí, že výsledky získané z parametrických testů jsou velmi podobné výsledkům souvisejícího permutačního testu, takže lze dojít k závěru, že i když parametrické předpoklady nejsou splněny, parametrické testy jsou často dobrými aproximacemi odpovídajícího „přesného“ permutačního testu za předpokladu, že vzorek je dostatečně velký.
Před 80. lety bylo zatížení vytvořením referenčního rozdělení ohromné s výjimkou souborů dat s malými velikostmi vzorků. Souběh levných rychlých počítačů a vývoj nových sofistikovaných algoritmů cest, které jsou použitelné ve speciálních situacích, však od 80. let minulého století učinil aplikaci permutačních testovacích metod praktickou pro širokou škálu problémů a inicioval přidání možností exaktních testů do hlavních statistických softwarových balíčků a vzhled specializovaného softwaru pro provádění široké škály uni- a multi-variabilních exaktních testů a výpočetních testů založených na „exaktní“ jistotě. intervalech.
V průběhu 90. let 20. století byla zavedena zcela obecná zkratkovitá metoda pro hledání referenčního rozdělení, metoda Monte Carlo. I s nejpokročilejším počítačem dneška je úkol provedení obecného permutačního testu na kontinuálních datech stále ohromující, pokud velikost vzorku není velmi malá.
Počet permutací = N! pro data bez vazeb. Pro N=10 počet permutací = 3628800.
Pro N=20 je to 2,4E18 a pro N=50 je to 3,0E64.
Proto byl důležitý průlom v oblasti aplikované statistiky, když bylo realizováno, že použitím Monte Carlo samplingu, tj. odebráním malého (vzhledem k celkovému počtu permutací) počtu náhodných vzorků s náhradou z permutačního rozdělení, bylo možné přesně odhadnout referenční rozložení libovolného permutačního testu na libovolných datech. Malý vzorek v tomto případě znamená alespoň 10 000.

Doporučujeme:  Neurodiverzita

Omezení testů založených na principu permutace:
Za permutačním testem stojí dva důležité předpoklady – že pozorování jsou nezávislá a že jsou vyměnitelná za nulové hypotézy.
Důležitým důsledkem předpokladu vyměnitelnosti je, že testy rozdílů v místě (jako permutační t-test) vyžadují stejnou rozptyl, jinak pozorování nejsou vyměnitelná. V tomto ohledu má permutační t-test stejnou slabinu jako klasický Studentův t-test.
Další slabinou permutačních testů je, že vracejí hodnotu p jako jediný výsledek statistické analýzy, což znamená, že nesplňují společný požadavek, aby výsledky byly prezentovány jako intervaly spolehlivosti sledovaného parametru, a ne (pouze) jako hodnoty p. Existují však metody pro výpočet „přesných“ intervalů spolehlivosti z inverzní hodnoty permutačního testu.