V teorii pravděpodobnosti a statistice je rozptyl náhodné veličiny měřítkem její statistické rozptylu, udávající, jak daleko od očekávané hodnoty se její hodnoty obvykle nacházejí.
Rozptyl náhodné veličiny v reálné hodnotě je jejím druhým centrálním momentem a shodou okolností je také jejím druhým kumulátorem. Rozptyl náhodné veličiny je druhou mocninou její směrodatné odchylky.
Pokud μ = E(X) je očekávaná hodnota (průměr) náhodné proměnné X, pak rozptyl je
To znamená, že se jedná o očekávanou hodnotu druhé mocniny odchylky X od vlastního průměru. Ve srozumitelném jazyce ji lze vyjádřit jako „Průměr druhé mocniny vzdálenosti každého datového bodu od průměru“. Jedná se tedy o střední kvadratickou odchylku. Rozptyl náhodné proměnné X se obvykle označuje jako , , nebo jednoduše .
Všimněte si, že výše uvedená definice může být použita pro diskrétní i spojité náhodné proměnné.
Mnoho distribucí, například Cauchyho rozdělení, nemá rozptyl, protože se příslušný integrál rozchází. Zejména pokud rozdělení nemá očekávanou hodnotu, nemá ani rozptyl. Opak není pravdou: existují distribuce, pro které očekávaná hodnota existuje, ale rozptyl ne.
Pokud je rozptyl definován, můžeme dojít k závěru, že nikdy není záporný, protože čtverce jsou kladné nebo nulové. Jednotkou rozptylu je druhá odmocnina jednotky pozorování. Například rozptyl množiny výšek měřených v centimetrech bude dán v centimetrech čtverečních. Tato skutečnost je nepohodlná a motivovala mnoho statistiků, aby místo toho použili druhou odmocninu rozptylu, známou jako směrodatná odchylka, jako souhrn rozptylu.
Z definice lze snadno prokázat, že rozptyl nezávisí na střední hodnotě . To znamená, že pokud je proměnná „vytlačena“ částkou b tím, že se vezme X+b, zůstane rozptyl výsledné náhodné proměnné nedotčen. Naproti tomu, pokud je proměnná vynásobena škálovacím faktorem a, je rozptyl vynásoben a2. Formálněji, pokud a a b jsou reálné konstanty a X je náhodná proměnná, jejíž rozptyl je definován,
Další vzorec pro rozptyl, který přímočaře vyplývá z linearity očekávaných hodnot a výše uvedené definice, je:
To se často používá k výpočtu rozptylu v praxi.
Jedním z důvodů pro použití rozptylu v preferenci k jiným měřítkům rozptylu je, že rozptyl součtu (nebo rozdíl) nezávislých náhodných proměnných je součtem jejich rozptylů. Slabší podmínka než nezávislost, tzv. nekorektnost také stačí. Obecně,
Zde je kovariance, která je nula pro nezávislé náhodné proměnné (pokud existuje).
Přibližování rozptylu funkce
Metoda Delta používá Taylorovy expanze druhého řádu k přiblížení rozptylu funkce jedné nebo více náhodných proměnných. Například přibližný rozptyl funkce jedné proměnné je dán
za předpokladu, že je dvakrát diferencovatelné a že průměr a rozptyl jsou konečné.
Populační rozptyl a výběrový rozptyl
Obecně platí, že populační rozptyl konečné populace je dán
kde je populační průměr. Jedná se pouze o zvláštní případ obecné definice rozptylu uvedené výše, ale omezené na konečné populace.
Běžnou metodou odhadu rozptylu velkých (konečných nebo nekonečných) populací je odběr vzorků. Začneme s konečným vzorkem hodnot odebraných z celkové populace. Předpokládejme, že náš vzorek je posloupnost . S tímto vzorkem můžeme udělat dvě odlišné věci: za prvé, můžeme s ním zacházet jako s konečnou populací a popsat její rozptyl; za druhé, můžeme odhadnout základní populační rozptyl z tohoto vzorku.
Rozptyl vzorku , viděno jako konečný populace, je
kde je výběrový průměr. Někdy se tomu říká výběrový rozptyl; tento termín je však nejednoznačný. Některé elektronické kalkulačky umí počítat stiskem tlačítka, v takovém případě je toto tlačítko obvykle označeno „“.
Při použití vzorku k odhadu rozptylu základní větší populace, ze které byl vzorek vybrán, může být lákavé porovnat rozptyl populace s . Je to však zkreslený odhad rozptylu populace. Následující je nezkreslený odhad:
kde je výběrový průměr. Všimněte si, že termín ve jmenovateli výše kontrastuje s rovnicí pro , Který má ve jmenovateli. Všimněte si, že obecně není totožný s skutečným populačním rozptylem; je to pouze odhad, i když možná velmi dobrý, pokud je velký. Protože je odhad rozptylu a je založen na konečný vzorek, je také někdy označován jako výběrový rozptyl.
V praxi platí, že u velkých je rozlišení často menší. V průběhu statistických měření se tak malé velikosti vzorku, že opravňují k použití nezaujatého rozptylu
prakticky nikdy nevyskytnou. V této souvislosti Press et al. poznamenal, že pokud vám někdy záleží na rozdílu mezi n a n−1, pak pravděpodobně stejně nemáte v plánu nic dobrého – např. se pokoušíte podložit spornou hypotézu mezními daty.
Budeme demonstrovat, proč je nezaujatý odhad populačního rozptylu. Odhad pro parametr je nezaujatý, pokud . Proto, aby prokázal, že je nezaujatý, ukážeme, že . Jako předpoklad, populace, které jsou čerpány z má průměr a rozptyl .
Intervaly spolehlivosti na základě rozptylu vzorku
Interval spolehlivosti pro populační rozptyl může být vytvořen jako
kde a jsou striktně pozitivní konstanty a .
Jeho pravděpodobnost pokrytí je
kde je chi-kvadrát náhodná proměnná se stupni volnosti.
Pokud je X náhodná veličina oceněná vektorem, s hodnotami v Rn, a uvažuje se o ní jako o sloupcovém vektoru, pak přirozená zobecnění rozptylu je E[(X − μ)(X − μ)T], kde μ = E(X) a XT je transpozice X, a stejně tak řádkový vektor. Tento rozptyl je nezáporná-definitní čtvercová matice, běžně označovaná jako kovarianční matice.
Pokud je X náhodná proměnná s komplexní hodnotou, pak její rozptyl je E[(X − μ)(X − μ)*], kde X* je komplexní konjugát X. Tato rozptyl je nezáporné reálné číslo.
Termín rozptyl byl poprvé představen Ronaldem Fisherem v jeho práci z roku 1918 The Correlation Between Relatives on the Supposition of Mendelian Dědictví.
Rozptyl pravděpodobnostního rozdělení je analagní vůči momentu setrvačnosti v klasické mechanice odpovídajícího lineárního rozložení hmotnosti s ohledem na rotaci kolem jeho těžiště. Právě kvůli této analogii se takové věci jako rozptyl nazývají momenty pravděpodobnostního rozdělení.