Ve statistice je převzorkování některou z různých metod, jak udělat jednu z následujících:
Mezi běžné techniky převzorkování patří bootstrapping, jackknifing a permutační testy.
Bootstrapping je statistická metoda pro odhad výběrového rozdělení odhadu pomocí vzorkování s náhradou z původního vzorku, nejčastěji za účelem odvození robustních odhadů standardních chyb a intervalů spolehlivosti populačního parametru, jako je průměr, medián, poměr, odds ratio, korelační koeficient nebo regresní koeficient. Může být také použita pro konstrukci testů hypotéz. Často se používá jako robustní alternativa k odvození na základě parametrických předpokladů, pokud jsou tyto předpoklady na pochybách, nebo pokud je parametrické odvození nemožné nebo vyžaduje velmi komplikované vzorce pro výpočet standardních chyb.
Jackknifing, který je podobný bootstrappingu, se používá při statistickém odvozování k odhadu zkreslení a standardní chyby ve statistice, kdy se k jejímu výpočtu používá náhodný vzorek pozorování. Základní myšlenka odhadu jackknife spočívá v systematickém přepočítávání statistického odhadu s vynecháním jednoho pozorování po druhém ze souboru vzorků. Z tohoto nového souboru „pozorování“ pro statistiku lze vypočítat odhad zkreslení a odhad rozptylu statistiky.
Obě metody odhadují variabilitu statistiky z variability této statistiky mezi dílčími vzorky, spíše než z parametrických předpokladů. Jackknife je méně obecná technika než bootstrap a zkoumá variabilitu vzorku odlišně. Nicméně jackknife je snadněji aplikovatelný na komplexní vzorkovací schémata, jako je vícestupňové vzorkování s různou výběrovou hmotností, než bootstrap.
Jackknife a bootstrap mohou v mnoha situacích přinést podobné výsledky. Ale při použití k odhadu standardní chyby statistiky, bootstrap dává mírně odlišné výsledky, když se opakuje na stejných datech, zatímco jackknife dává pokaždé přesně stejný výsledek (za předpokladu, že podskupiny, které mají být odstraněny, jsou stejné).
Křížová validace je statistická metoda pro validaci
prediktivního modelu. Podskupiny dat jsou drženy, mají být použity
jako validační množiny; model je vhodný pro zbývající data (tréninková množina)
a slouží k predikci pro validační množinu. Průměr kvality
predikcí napříč validačními množinami přináší celkové měřítko
přesnosti predikce.
Jedna forma křížové validace vynechává vždy jedno pozorování;
to je podobné jako u jackknife.
Jiná, K-násobná křížová validace,
rozděluje data do K podskupin; každá je držena postupně jako validační
množina.
Tím se vyhneme „vlastnímu vlivu“. Pro srovnání, v regresní analýze
metody
jako je lineární regrese, každá hodnota y vykresluje regresní přímku
k sobě, takže se předpovědi zdají být přesnější, než
ve skutečnosti v průměru jsou. Křížová validace aplikovaná na lineární regresi
predikuje hodnotu y pro každé pozorování bez použití tohoto pozorování.
To se často používá pro rozhodování o tom, kolik
proměnných prediktoru použít v regresi. Bez křížové validace
přidávání prediktorů vždy snižuje zbytkový součet čtverců (případně
ponechává beze změny). Naopak
křížově validovaná chyba střední kvadratiky bude mít tendenci se snižovat, pokud se přidají cenné
prediktory, ale zvyšovat, pokud se přidají bezcenné
prediktory.
Test permutace (také nazývaný randomizační test, re-randomizační test nebo exaktní test) je typ testu statistické významnosti, ve kterém se získává referenční rozdělení výpočtem všech možných hodnot statistické hodnoty testu v rámci přeskupení popisků na pozorovaných datových bodech. Jinými slovy, metoda, kterou se přiřazují léčebné postupy subjektům v experimentálním designu, se odráží v analýze tohoto designu. Pokud jsou popisky vyměnitelné za nulové hypotézy, pak výsledné testy přinášejí přesné úrovně významnosti. Z testů pak lze odvodit intervaly spolehlivosti. Teorie se vyvinula z prací R.A. Fishera a E.J.G. Pitmana ve 30. letech 20. století.
Pro ilustraci základní myšlenky permutačního testu,
předpokládejme, že máme dvě skupiny a jejichž výběrové průměry
jsou
a ,
a že chceme na 5% úrovni významnosti otestovat, zda pocházejí ze stejného rozdělení.
Dovolit a být vzorek
velikost odpovídající každé skupině.
Test permutace je navržen tak,
aby určil, zda pozorovaný rozdíl
mezi výběrovými průměry je dostatečně velký,
aby odmítl nulovou hypotézu H, že
obě skupiny mají identické rozdělení pravděpodobnosti.
Zkouška probíhá následovně.
Nejprve se vypočte rozdíl v prostředcích mezi oběma vzorky: to je pozorovaná hodnota zkušební statistiky, T(obs). Poté se provede pozorování skupin a sloučí se.
Dále se vypočítá a zaznamená rozdíl výběrových průměrů pro každý možný způsob rozdělení těchto souhrnných hodnot do dvou velikostních skupin a (tj. pro každou permutaci skupinových štítků A a B). Soubor těchto vypočítaných rozdílů je přesným rozdělením možných rozdílů za nulové hypotézy, že skupinový štítek nehraje roli.
Jednostranná hodnota p zkoušky se vypočte jako (1 – ) podíl vzorkovaných permutací, u nichž byl rozdíl průměrů menší nebo roven T(obs).
Oboustranná hodnota p zkoušky se vypočte jako podíl vzorkovaných permutací, u nichž byl absolutní rozdíl větší nebo roven ABS(T(obs)).
Je-li jediným účelem testu odmítnout nebo neodmítnout nulovou hypotézu, můžeme jako alternativu seřadit zaznamenané rozdíly a pak pozorovat, zda je T(obs) obsaženo v polovině 95% z nich. Pokud tomu tak není, odmítáme hypotézu shodných křivek pravděpodobnosti na 5% významné úrovni.
Vztah k parametrickým testům
Permutační testy jsou podmnožinou neparametrické statistiky. Základním předpokladem je použít pouze předpoklad, že je možné, že všechny léčebné skupiny jsou rovnocenné a že každý člen z nich je stejný před zahájením odběru (tj. slot, který vyplní, není odlišitelný od ostatních slotů před vyplněním slotů). Z toho lze vypočítat statistiku a pak zjistit, do jaké míry je tato statistika zvláštní tím, že zjistíme, jak pravděpodobná by byla, kdyby byly léčebné úkoly zpřeházené.
Na rozdíl od permutačních testů se referenční rozdělení pro mnoho populárních „klasických“ statistických testů, jako je t-test, f-test, z-test a chi-kvadrát test, získávají z teoretických pravděpodobnostních rozdělení.
Fisherův přesný test je běžně používaný test pro vyhodnocení spojení mezi dvěma dichotomózními proměnnými, to je permutační test. Když jsou velikosti vzorku velké, Pearsonův chi-kvadrát test poskytne přesné výsledky, ale u malých vzorků nelze předpokládat, že by referenční rozdělení chi-kvadrát poskytlo správný popis pravděpodobnostního rozdělení statistiky testu, a v této situaci se použití Fisherova přesného testu stává vhodnějším. Zásadním pravidlem je, že očekávaný počet v každé buňce tabulky by měl být větší než 5 před použitím Pearsonova chi-kvadrát testu.
Permutační testy existují v mnoha situacích, kdy parametrické testy neexistují. Například při odvozování optimálního testu, kdy jsou ztráty úměrné velikosti chyby, a nikoli její druhé mocnině. Všechny jednoduché a mnohé poměrně složité parametrické testy mají odpovídající verzi permutačního testu, která je definována použitím stejné testovací statistiky jako parametrický test, ale získává p-hodnotu z permutačního rozdělení této statistiky specifického pro vzorek, a nikoli z teoretického rozdělení odvozeného z parametrického předpokladu. Tímto způsobem je například možné sestrojit permutační t-test, permutační chi-kvadrátový test asociace, permutační verzi Alyho testu pro porovnávání odchylek a tak dále.
Hlavní nevýhodou-na permutace testy jsou, že
Testy mutací existují pro jakoukoliv statistiku testů, bez ohledu na to, zda je její distribuce známá nebo ne. Proto je vždy možné zvolit statistiku, která nejlépe rozlišuje mezi hypotézou a alternativou a která minimalizuje ztráty.
Před osmdesátými lety byla zátěž spojená s vytvářením referenčního rozdělení až na datové soubory s malými velikostmi vzorků obrovská. Od osmdesátých let však souběh levných rychlých počítačů a vývoj nových sofistikovaných algoritmů cest aplikovatelných ve zvláštních situacích způsobil, že aplikace permutačních testovacích metod byla praktická pro širokou škálu problémů a inicioval přidání možností exaktních testů do hlavních statistických softwarových balíčků a vznik specializovaného softwaru pro provádění široké škály uni- a multivariabilních exaktních testů a výpočetních „exaktních“ intervalů spolehlivosti založených na testech.
Důležitým předpokladem permutačního testu je, že pozorování jsou vyměnitelná za nulovou hypotézu. Důležitým důsledkem tohoto předpokladu je, že testy rozdílů v umístění (jako permutační t-test) vyžadují stejnou varianci. V tomto ohledu má permutační t-test stejnou slabinu jako klasický Studentův t-test. Třetí alternativou v této situaci je použít test založený na bootstrapu. Good (2000) vysvětluje rozdíl mezi permutačními testy a bootstrapovými testy následujícím způsobem: „Permutace testují hypotézy týkající se rozdělení; bootstrapy testují hypotézy týkající se parametrů. Výsledkem je, že bootstrap obsahuje méně přísné předpoklady.“ Testy bootstrapu samozřejmě nejsou přesné.
Nezbytná velikost vzorku Monte Carlo závisí na potřebě přesnosti testu. Pokud chceme pouze vědět, zda je hodnota p významná, někdy stačí k získání spolehlivé odpovědi několik málo až 400 přeskupení. Pro většinu vědeckých aplikací je však požadovaná velikost mnohem vyšší. Pro pozorované p=0,05 je přesnost z 10 000 náhodných permutací 0,0056 a pro 50 000 0,0025. Pro pozorované p=0,10 je odpovídající přesnost 0,0077 a 0,0035. Přesnost je definována z binomického 99% intervalu spolehlivosti: p +/- přesnost
[Současný výzkum permutačních testů]