Pearsonův test chí-kvadrát

Je-li nulová hypotéza pravdivá (tj. muži a ženy jsou ve vzorku vybíráni se stejnou pravděpodobností), bude statistika testu rozdělena s jedním stupněm volnosti. Dalo by se očekávat, že budou dva stupně volnosti, jeden pro mužský počet a jeden pro ženský. V tomto případě je však pouze jeden stupeň volnosti, protože mužský a ženský počet jsou omezeny součtem 50 (velikost vzorku), a toto omezení snižuje počet stupňů volnosti o jeden. Případně, je-li mužský počet znám, určí se ženský počet a naopak.

Konzultace rozdělení chí-kvadrát pro 1 stupeň volnosti ukazuje, že pravděpodobnost pozorování tohoto rozdílu (nebo extrémnějšího rozdílu, než je tento), pokud jsou muži a ženy v populaci stejně početní, je přibližně 0,3. Tato pravděpodobnost je vyšší než konvenční kritéria statistické významnosti, takže normálně bychom neodmítli nulovou hypotézu, že počet mužů v populaci je stejný jako počet žen.

Pearsonův chi-square je originální a nejrozšířenější chi-square test.

Nulová distribuce Pearsonovy statistiky je pouze aproximovaná jako rozdělení chí-kvadrát. Tato aproximace vzniká jako pravdivé rozdělení za nulové hypotézy, pokud je očekávaná hodnota dána multinomiálním rozdělením. Pro velké velikosti vzorků říká centrální limitní věta, že toto rozdělení směřuje k určitému multivariabilnímu normálnímu rozdělení. Ve zvláštním případě, kdy jsou v tabulce pouze dvě buňky, očekávané hodnoty následují binomické rozdělení.

Ve výše uvedeném příkladu je hypotetická pravděpodobnost pozorování samců 0,5 se 100 vzorky. Očekáváme tedy pozorování 50 samců.

Při porovnání statistiky Pearsonova testu s rozdělením chí-kvadrát je výše uvedené binomické rozdělení aproximováno jako Gaussovo (normální) rozdělení:

Nechť O je počet pozorování ze vzorku, které jsou v první buňce. Statistika Pearsonova testu může být vyjádřena jako

Což může být zase vyjádřeno jako:

Normální aproximací na binomickou je to druhá mocnina jedné standardní normální proměnné, a proto je distribuována jako chí-kvadrát s 1 stupněm volnosti.

Doporučujeme:  Vomeronazální receptory

V obecném případě, kdy jsou v tabulce eventualit buňky, vede Normální aproximace k součtu standardních normálních proměnných, a je tedy rozdělena jako chí-kvadrát se stupni volnosti:

V případech, kdy se zjistí, že očekávaná hodnota E je malá (což znamená buď malou základní populační pravděpodobnost, nebo malý počet pozorování), může normální aproximace multinomiálního rozdělení selhat a v takových případech se zjistí, že je vhodnější použít G-test, což je statistika založená na pravděpodobnostním poměru. Pokud je celková velikost vzorku malá, je nutné použít vhodný přesný test, obvykle buď binomický test, nebo (pro tabulky pro nepředvídané situace) Fisherův přesný test.

Komplikovanější, ale široce používaná forma Pearsonova testu chí-kvadrát nastává v případě, kdy nulová hypotéza zájmu zahrnuje neznámé parametry . Například si můžeme přát vyzkoušet, zda některá data následují normální rozdělení, ale bez určení průměru nebo rozptylu. V této situaci je třeba neznámé parametry odhadnout podle dat, obvykle pomocí odhadu maximální pravděpodobnosti, a tyto odhady jsou pak použity k výpočtu očekávaných hodnot v Pearsonově statistice. Běžně se uvádí, že stupně volnosti pro rozdělení chí-kvadrát statistiky jsou pak , Kde je počet neznámých parametrů. Tento výsledek je platný, když původní data byla Multinomiální a proto jsou odhadované parametry efektivní pro minimalizaci statistiky chí-kvadrát. Obecněji však, když se odhad maximální pravděpodobnosti neshoduje s minimálním odhadem chí-kvadrát, rozdělení bude ležet někde mezi rozdělení chí-kvadrát s a stupni volnosti (Viz například Chernoff a Lehmann 1954).