Kontingenční tabulky

Ve statistice se kontingenční tabulky používají k záznamu a analýze vztahu mezi dvěma nebo více proměnnými, nejčastěji kategoriálními proměnnými.

Předpokládejme, že máme dvě proměnné, pohlaví (muž nebo žena) a ruku (pravák nebo levák). Hodnoty obou proměnných sledujeme u náhodného vzorku 100 osob. Pak lze k vyjádření vztahu mezi těmito dvěma proměnnými použít kontingenční tabulku, a to následujícím způsobem:

Čísla v pravém sloupci a ve spodním řádku se nazývají mezní součty a číslo v pravém dolním rohu je celkový součet.

Z tabulky je na první pohled patrné, že podíl mužů praváků je přibližně stejný jako podíl žen praváků. Oba podíly však nejsou totožné a statistickou významnost rozdílu mezi nimi lze testovat Pearsonovým chí-kvadrát testem, G-testem nebo Fisherovým přesným testem za předpokladu, že položky v tabulce představují náhodný vzorek z populace uvažované v nulové hypotéze. Pokud se podíly jedinců v jednotlivých sloupcích mezi řádky liší (a tedy i naopak), říkáme, že tabulka vykazuje kontingenci mezi oběma proměnnými. Pokud kontingence neexistuje, říkáme, že obě proměnné jsou nezávislé.

Výše uvedený příklad se týká nejjednoduššího typu kontingenční tabulky, v níž má každá proměnná pouze dvě úrovně; nazývá se kontingenční tabulka 2 x 2. V zásadě lze použít libovolný počet řádků a sloupců. Proměnných může být i více než dvě, ale kontingenční tabulky vyšších řádů se na papíře obtížně zobrazují. Vztah mezi ordinálními proměnnými nebo mezi ordinálními a kategoriálními proměnnými lze také znázornit v kontingenčních tabulkách, i když se to dělá méně často, protože rozdělení ordinálních proměnných lze efektivně shrnout pomocí mediánu.

Míru asociace mezi dvěma proměnnými lze posoudit pomocí několika koeficientů: nejjednodušší je koeficient phi, který je definován takto

kde χ2 je odvozeno z Pearsonova testu a N je celkový počet pozorování. φ se pohybuje od 0 (což odpovídá nulovému vztahu mezi proměnnými) do 1 (úplný vztah). Tento koeficient lze použít pouze pro tabulky 2 x 2. Mezi alternativy patří tetrachorický korelační koeficient (rovněž použitelný pouze pro tabulky 2 x 2), kontingenční koeficient C a Cramérův koeficient V. C má tu nevýhodu, že nedosahuje maxima 1 při úplné asociaci v asymetrických tabulkách (těch, kde počet řádků a sloupců není stejný). Tetrachorický korelační koeficient je v podstatě Pearsonův součinový korelační koeficient mezi řádkovými a sloupcovými proměnnými, přičemž jejich hodnoty pro každé pozorování se berou jako 0 nebo 1 podle toho, do jaké kategorie spadá. Vzorce pro ostatní koeficienty jsou následující:

Doporučujeme:  Hraniční porucha osobnosti

k je počet řádků nebo počet sloupců, podle toho, který je menší.

C lze upravit tak, aby při úplném přiřazení v tabulce s libovolným počtem řádků a sloupců dosáhlo maxima 1, a to tak, že se vydělí √((k-1) / k).

Termín kontingenční tabulka poprvé použil Karl Pearson v článku „On the Theory of Contingency and its Relation to Association and Normal Correlation“ v Drapers‘ Company Research Memoirs (1904) Biometric Series I.