Bodový biseriální korelační koeficient (rpb) je korelační koeficient používaný v případě, že jedna proměnná (např. Y) je dichotomická; Y může být buď ‚přirozeně‘ dichotomická, jako pohlaví, nebo uměle dichotomizovaná proměnná. Ve většině situací není vhodné proměnné uměle dichotomizovat. Když uměle dichotomizujete proměnnou, může být nová dichotomická proměnná pojata jako proměnná se základní kontinuitou. Pokud tomu tak je, biseriální korelace by byla vhodnější výpočet.
Bod-biseriální korelace je matematicky ekvivalentní Pearsonově (součin momentu) korelaci, tedy pokud máme jednu kontinuálně měřenou proměnnou X a dichotomous proměnnou Y, rXY = rpb. To lze ukázat přiřazením dvou odlišných číselných hodnot k dichotomous proměnné.
Pro výpočet rpb předpokládejme, že dichotomická proměnná Y má dvě hodnoty 0 a 1. Rozdělíme-li datovou sadu do dvou skupin, skupiny 1, která obdržela hodnotu „1“ na Y, a skupiny 2, která obdržela hodnotu „0“ na Y, pak se bod-biseriální korelační koeficient vypočte takto:
kde sn je použitá směrodatná odchylka, když máte údaje za každého člena populace:
Je snadné algebraicky ukázat, že existuje ekvivalentní vzorec, který používá sn – 1:
kde sn – 1 je použitá směrodatná odchylka, pokud máte údaje pouze pro vzorek populace:
Glassova a Hopkinsova kniha Statistical Methods in Education and Psychology (3. vydání) obsahuje správnou verzi bodové biseriální formule.
Druhá mocnina bodu biseriálního korelačního koeficientu se rovná:
kde M1 je střední hodnota na spojité proměnné X pro všechny datové body ve skupině 1, M0 je střední hodnota na spojité proměnné X pro všechny datové body ve skupině 2. Dále n1 je počet datových bodů ve skupině 1, n0 je počet datových bodů ve skupině 2 a n je celková velikost vzorku.
Tento vzorec je výpočetní vzorec, který byl odvozen ze vzorce pro rXY, aby se snížily kroky ve výpočtu; je jednodušší ho vypočítat než rXY.
Můžeme testovat nulovou hypotézu, že korelace je v populaci nulová. Malá algebra ukazuje, že obvyklý vzorec pro posouzení významu korelačního koeficientu, když se aplikuje na rpb, je stejný jako vzorec pro nepárový t-test a tak
následuje Studentovo t-rozdělení s (n1+n0 – 2) stupni volnosti, je-li nulová hypotéza pravdivá.
Nevýhodou bodového biseriálního koeficientu je, že čím dále je rozdělení Y od 50/50, tím omezenější bude rozsah hodnot, které koeficient může mít. Pokud lze předpokládat, že X je normálně rozloženo, lepší popisný index je dán biseriálním koeficientem.
kde u je souřadnice normálního rozdělení s nulovým průměrem a jednotkovou odchylkou v bodě, který dělí rozdělení do poměrů n0/n a n1/n. Jak si asi umíte představit, není to nejjednodušší věc na světě k výpočtu a biseriální koeficient se v praxi příliš nepoužívá.
Konkrétní případ biseriální korelace nastává, když X je součet několika dichotomických proměnných, z nichž Y je jedna. Příkladem toho je, když X je celkové skóre osoby v testu složeném z n dichotomicky skórovaných položek. Zajímavá statistika (index diskriminace) je korelace mezi danou položkou a celkovým skóre testu. Ale protože ta druhá zahrnuje první, je zaručena míra pozitivní korelace a statistika je zkreslená. V tomto případě je obvyklý vzorec pro bodový biseriální koeficient nahrazen
Trochu jiná verze bodového biseriálního koeficientu je rank biserial, který nastává tam, kde se proměnná X skládá z ranks, zatímco Y je dichotomous. Mohli bychom vypočítat koeficient stejným způsobem jako tam, kde X je spojitá, ale mělo by to stejnou nevýhodu, že rozsah hodnot, které může nabývat, se stává více zúžený, protože rozložení Y se stává více nerovnoměrné. Abychom to obešli, poznamenáváme, že koeficient bude mít svou největší hodnotu tam, kde nejmenší ranks jsou všechny naproti 0s a největší ranks jsou naproti 1s. Jeho nejmenší hodnota nastává tam, kde je tomu naopak. Tyto hodnoty jsou v tomto pořadí plus a minus (n1+n0)/2. Můžeme tedy použít převrácenou hodnotu této hodnoty pro změnu měřítka rozdílu mezi pozorovanými průměrnými ranks on na interval od plus jedna do minus jedna. Výsledkem je
kde M1 a M0 jsou průměry hodností odpovídajících skóre 1 a 0 dichotomické proměnné.
Tímto způsobem lze testovat nulovou hypotézu nulové korelace v souboru, ze kterého byl vzorek odebrán. Pokud se rrb vypočítá jako výše, pak menší z
je distribuován jako Mann-Whitney U s velikostí vzorku n1 a n0, když je nulová hypotéza pravdivá.