Pohotovostní tabulky

Ve statistice se tabulky kontingencí používají pro záznam a analýzu vztahu mezi dvěma nebo více proměnnými, nejčastěji kategorickými proměnnými.

Předpokládejme, že máme dvě proměnné, pohlaví (muž nebo žena) a handedness (pravák nebo levák). Pozorujeme hodnoty obou proměnných v náhodném vzorku 100 lidí. Potom můžeme použít tabulku eventualit k vyjádření vztahu mezi těmito dvěma proměnnými, takto:

Čísla v pravém sloupci a ve spodním řádku se nazývají mezní součty a číslo v pravém dolním rohu je celkový součet.

Tabulka nám umožňuje na první pohled vidět, že podíl mužů, kteří jsou praváci, je přibližně stejný jako podíl žen, které jsou praváci. Tyto dva podíly však nejsou identické a statistickou významnost rozdílu mezi nimi lze testovat pomocí Pearsonova chi-kvadrátového testu, G-testu nebo Fisherova přesného testu za předpokladu, že záznamy v tabulce představují náhodný vzorek z populace uvažované v nulové hypotéze. Pokud se podíly jednotlivců v různých sloupcích liší mezi řádky (a tedy i naopak), říkáme, že tabulka ukazuje nahodilost mezi oběma proměnnými. Pokud neexistuje žádná nahodilost, říkáme, že obě proměnné jsou nezávislé.

Výše uvedený příklad je pro nejjednodušší druh kontingenční tabulky, ve které má každá proměnná pouze dvě úrovně; tomu se říká kontingenční tabulka 2 x 2. V zásadě může být použit libovolný počet řádků a sloupců. Může být také více než dvě proměnné, ale kontingenční tabulky vyššího řádu je těžké na papíře reprezentovat. Vztah mezi řadovými proměnnými nebo mezi řadovými a kategorickými proměnnými může být také reprezentován v kontingenčních tabulkách, i když se to dělá méně často, protože rozdělení řadových proměnných lze efektivně shrnout pomocí mediánu.

Stupeň asociace mezi oběma proměnnými lze posoudit pomocí několika koeficientů: nejjednodušší je koeficient phi definovaný pomocí

kde χ2 je odvozeno z Pearsonova testu a N je celkový počet pozorování. φ se pohybuje od 0 (což odpovídá neexistenci asociace mezi proměnnými) do 1 (úplná asociace). Tento koeficient lze použít pouze pro 2 x 2 tabulky. Alternativy zahrnují tetrachorický korelační koeficient (také užitečný pouze pro 2 x 2 tabulky), koeficient podmíněnosti C a Cramérův V. C trpí nevýhodou, že nedosahuje maximálně 1 s úplnou asociací v asymetrických tabulkách (těch, kde počty řádků a sloupců nejsou stejné). Tetraforický korelační koeficient je v podstatě Pearsonův korelační koeficient součinu momentů mezi řádkovými a sloupcovými proměnnými, jejich hodnoty pro každé pozorování se berou jako 0 nebo 1 v závislosti na kategorii, do které spadá. Vzorce pro ostatní koeficienty jsou:

Doporučujeme:  Nepřímá cesta pohybu

k je počet řádků nebo počet sloupců, podle toho, která hodnota je menší.

C lze upravit tak, aby dosáhlo maximálně 1, když dojde k úplnému spojení v tabulce libovolného počtu řádků a sloupců vydělením √((k-1) / k).

Termín kontingenční tabulka byl poprvé použit Karlem Pearsonem v knize „O teorii kontingence a jejím vztahu k asociaci a normální korelaci“ v Drapers‘ Company Research Memoirs (1904) Biometric Series I.