Binomické rozdělení – Dobrá psychoterapie

V teorii pravděpodobnosti a statistice je binomické rozdělení diskrétní rozdělení pravděpodobnosti počtu úspěchů v posloupnosti n nezávislých experimentů typu ano/ne, z nichž každý přináší úspěch s pravděpodobností p. Takovému experimentu typu úspěch/neúspěch se také říká Bernoulliho experiment nebo Bernoulliho pokus. Ve skutečnosti, když n = 1, je binomické rozdělení Bernoulliho distribucí. Binomické rozdělení je základem populárního binomického testu statistické významnosti.

Základní příklad je následující: Desetkrát hodit standardní kostkou a spočítat počet šestek. Rozložení tohoto náhodného čísla je binomické rozdělení s n = 10 a p = 1/6.

Jako další příklad předpokládejme, že 5% z velmi velké populace má zelené oči. Vyberete náhodně 100 lidí. Počet zelenookých lidí, které vyberete, je náhodná proměnná X, která následuje po binomickém rozdělení s n = 100 a p = 0,05.

Obecně platí, že pokud náhodná proměnná K následuje binomické rozdělení s parametry n a p, píšeme K ~ B(n, p). Pravděpodobnost, že získáme přesně k úspěchů, je dána pravděpodobnostní hmotnostní funkcí:

pro k = 0, 1, 2, …, n a kde

je binomický koeficient (odtud název rozdělení) „n zvolit k“ (také značeno C(n, k) nebo nCk). Vzorec lze chápat takto: chceme k úspěchům (pk) a n − k nezdarům (1 − p)n − k. K úspěchům však může dojít kdekoliv mezi n pokusy a existují C(n, k) různé způsoby rozdělení k úspěchům v posloupnosti n pokusů.

Při vytváření referenčních tabulek pro pravděpodobnost binomického rozdělení se obvykle tabulka vyplňuje až do hodnot n/2. Je to proto, že pro k > n/2 lze pravděpodobnost vypočítat jejím doplňkem jako

Takže je třeba se podívat na jiné k a jiné p (binomické není symetrické obecně).

Kumulativní distribuční funkce

Kumulativní distribuční funkce může být vyjádřena regularizovanou nekompletní funkcí beta následovně:

za předpokladu, že k je celé číslo a 0 ≤ k ≤ n. Pokud x není nutně celé číslo nebo není nutně kladné, lze to vyjádřit takto:

Pro k ≤ np lze odvodit horní meze pro dolní ohon distribuční funkce. Zejména Hoeffdingova nerovnost dává hranici

a Chernoffova nerovnost může být použita k odvození vázaný

Pokud X ~ B(n, p) (tedy X je binomicky rozložená náhodná proměnná), pak očekávaná hodnota X je

Tento fakt lze snadno prokázat následovně. Předpokládejme nejprve, že máme přesně jeden Bernoulliho pokus. Máme dva možné výsledky, 1 a 0, přičemž první má pravděpodobnost p a druhý pravděpodobnost 1 − p; průměr pro tento pokus je dán μ = p. Při použití definice rozptylu máme

Nyní předpokládejme, že chceme rozptyl pro n takových pokusů (tj. pro obecné binomické rozdělení). Vzhledem k tomu, že pokusy jsou nezávislé, můžeme přidat rozptyly pro každý pokus, což

Režim X je největší celé číslo menší nebo rovno (n + 1)p; pokud m = (n + 1)p je celé číslo, pak m − 1 a m jsou oba režimy.

Explicitní derivace průměru a rozptylu

Tyto veličiny odvozujeme z prvotních principů. Určité konkrétní sumy se vyskytují v těchto dvou derivacích.
Uspořádáme sumy a pojmy tak, aby sumy byly pouze nad úplnými binomickými pravděpodobnostními hmotnostními funkcemi
(pmf) vznikají, které jsou vždy jednota

Definici očekávané hodnoty diskrétní náhodné veličiny aplikujeme na binomické rozdělení

První člen řady (s indexem k = 0) má hodnotu 0, protože první faktor k je nula.
Může být tedy zahozen, tj. můžeme změnit dolní mez na: k = 1

Vytáhli jsme z faktoriálů faktory n a k a jedna mocnina p byla odštěpena. Připravujeme se na předefinování indexů.

Přejmenujeme m = n – 1 a s = k – 1. Hodnota součtu se tím nemění, ale nyní je snadno rozpoznatelná

Výsledná suma je součet dělený celým binomickým pmf (o jeden řád nižší než původní součet, jak už to bývá). Tedy

Lze ukázat, že rozptyl je roven
(viz: rozptyl, 10. Výpočetní vzorec pro rozptyl):

Při použití tohoto vzorce vidíme, že nyní potřebujeme také očekávanou hodnotu X2, která je

Můžeme využít naše zkušenosti získané výše při odvozování průměru. Víme, jak zpracovat jeden faktor k. To nás dostane tak daleko, jak

(opět s m = n – 1 a s = k – 1). Rozdělíme sumu na dvě samostatné sumy a rozeznáme každou z nich

První součet je tvarově shodný s tím, který jsme vypočítali v Průměru (výše). Sčítá se do mp.
Druhý součet je jednota.

Pomocí tohoto výsledku ve výrazu pro rozptyl, spolu s průměrem (E(X) = np), dostaneme

Vztah k jiným distribucím

Pokud X ~ B(n, p) a Y ~ B(m, p) jsou nezávislé binomické proměnné, pak X + Y je opět binomická proměnná; její rozdělení je

Binomické PDF a normální aproximace pro n = 6 a p = 0,5.

Je-li n dostatečně velké, není vychýlení rozdělení příliš velké a použije se vhodná korekce kontinuity, pak je vynikající aproximace k B (n, p) dána normálním rozdělením

Následující příklad je příkladem použití korekce spojitosti: Předpokládejme, že chceme vypočítat Pr(X ≤ 8) pro binomickou náhodnou proměnnou X. Pokud má Y rozdělení dané normální aproximací, pak Pr(X ≤ 8) je aproximace Pr(Y ≤ 8,5). Přidání 0,5 je korekce spojitosti; nekorigovaná normální aproximace dává podstatně méně přesné výsledky.

Tato aproximace je obrovským úsporem času (přesné výpočty s velkým n jsou velmi náročné); historicky šlo o první použití normálního rozdělení, které bylo zavedeno v knize Abrahama de Moivrea The Doctrine of Chances z roku 1733. V dnešní době je možné ji považovat za důsledek centrální limitní věty, protože B(n, p) je součtem n nezávislých, identicky rozdělených proměnných indikátoru 0-1.

Například předpokládejme, že náhodně vyberete n lidí z velké populace a zeptáte se jich, zda souhlasí s určitým tvrzením. Podíl lidí, kteří souhlasí, bude samozřejmě záviset na vzorku. Pokud byste vzorkovali skupiny n lidí opakovaně a skutečně náhodně, podíly by se řídily přibližným normálním rozdělením se průměrem rovnajícím se skutečnému podílu p shody v populaci a se směrodatnou odchylkou σ = (p(1 − p)n)1/2. Velké velikosti vzorku n jsou dobré, protože směrodatná odchylka se zmenšuje, což umožňuje přesnější odhad neznámého parametru p.

Binomické rozdělení konverguje k Poissonovu rozdělení, protože počet pokusů jde do nekonečna, zatímco součin np zůstává neměnný. Proto lze Poissonovo rozdělení s parametrem λ = np použít jako aproximaci k B(n, p) binomického rozdělení, pokud n je dostatečně velké a p je dostatečně malé. Podle dvou pravidel palce je tato aproximace dobrá, pokud n ≥ 20 a p ≤ 0,05, nebo pokud n ≥ 100 a np ≤ 10.

Kumulativní distribuční funkce

Explicitní derivace průměru a rozptylu

Vztah k jiným distribucím

Limity binomického rozdělení