Přemrštění

Ve statistice je nadměrná isperze přítomností větší variability (statistického rozptylu) v datovém souboru, než by se očekávalo na základě daného jednoduchého statistického modelu.

Běžným úkolem v aplikované statistice je výběr parametrického modelu tak, aby odpovídal danému souboru empirických pozorování. To vyžaduje posouzení vhodnosti zvoleného modelu. Obvykle je možné zvolit parametry modelu tak, aby teoretický populační průměr modelu byl přibližně roven výběrovému průměru. Nicméně zejména u jednoduchých modelů s několika málo parametry nemusí teoretické předpovědi odpovídat empirickým pozorováním pro vyšší momenty. Je-li pozorovaný rozptyl vyšší než rozptyl teoretického modelu, došlo k nadměrné pravděpodobnosti. Naopak, podrozptyl znamená, že v datech byla menší odchylka, než se předpokládalo. Nadměrný rozptyl je velmi častým rysem v aplikované analýze dat, protože v praxi jsou populace často heterogenní oproti předpokladům, které jsou obsaženy v široce používaných jednoduchých parametrických modelech.

S nadměrným rozptylem se často setkáváme při montáži velmi jednoduchých parametrických modelů, například modelů založených na Poissonově rozdělení. Poissonovo rozdělení má jeden volný parametr a neumožňuje nastavit rozptyl nezávisle na průměru. Výběr rozdělení z rodiny Poissonových je často dán povahou empirických dat. Například Poissonova regresní analýza se běžně používá k modelování údajů o počtech. Je-li rysem nadměrná determinace, alternativní model s dodatečnými volnými parametry může poskytnout lepší shodu. V případě údajů o počtech lze místo toho použít Poissonův model směsi, jako je například negativní binomické rozdělení, kde lze průměr Poissonova rozdělení považovat za náhodnou veličinu – v tomto případě – vylosovanou z gama rozdělení, čímž se zavádí další volný parametr (všimněte si, že výsledné negativní binomické rozdělení má 2 parametry).

Jako konkrétnější příklad bylo pozorováno, že náhodný počet chlapců narozených do každé rodiny neodpovídá – jak by se dalo očekávat – věrně binomickému rozdělení. Místo toho se zdá, že každá rodina vychyluje poměr pohlaví svých dětí ve prospěch buď chlapců, nebo dívek (viz například Triversova–Willardova hypotéza pro jedno možné vysvětlení), tj. je příliš mnoho všech chlapeckých rodin, příliš mnoho všech dívčích rodin a málo rodin blízkých populaci průměrný poměr mezi chlapci a dívkami 51:49, čímž vzniká odhadovaný rozptyl, který je větší, než předpovídá binomický model.

V tomto případě je beta-binomický model oblíbenou a analyticky ovlivnitelnou alternativou k binomii, která zachycuje nadměrnou ispozici chybějící v binomickém modelu, a tím poskytuje lepší shodu s pozorovanými daty. Pro zachycení heterogenity rodin si lze představit p parametr (podíl chlapců) v binomickém modelu jako sám náhodnou proměnnou (tj. model náhodných efektů) nakreslenou pro každou rodinu z beta distribuce jako směšovací distribuce. Výsledná složená distribuce (Beta-Binomial) má další volný parametr.

Jiný běžný model pro overdispersion – když některá pozorování nejsou Bernoulliho – vzniká zavedením normální náhodné proměnné do logistického modelu. Software je široce dostupný pro montáž tohoto typu víceúrovňového modelu. V tomto případě, pokud je rozptyl normální proměnné nulový, model se redukuje na klasickou (nerozpuštěnou) logistickou regresi. Všimněte si, že tento model má další volný parametr – konkrétně rozptyl normální proměnné.

S ohledem na binomické náhodné veličiny má koncept nadměrné pravděpodobnosti smysl pouze v případě n>1 (tj. nadměrná pravděpodobnosti je pro Bernoulliho náhodné veličiny nesmyslná).

Například ve statistickém šetření míra chyby (určená velikostí vzorku) předpovídá výběrovou chybu a tím i rozptyl výsledků opakovaných šetření. Pokud provedeme metaanalýzu opakovaných průzkumů fixní populace (řekněme s danou velikostí vzorku, takže odchylka je stejná), očekáváme, že výsledky dopadnou na normální rozdělení se směrodatnou odchylkou rovnající se odchylce odchylky. Nicméně v případě heterogenity studie, kde studie mají různá výběrová zkreslení, je distribuce spíše distribucí směsi a bude nadměrně vypočtena vzhledem k predikované distribuci. Například vzhledem k opakovaným průzkumům veřejného mínění, které jsou všechny s odchylkou 3%, pokud jsou prováděny různými volebními organizacemi, lze očekávat, že výsledky budou mít směrodatnou odchylku vyšší než 3%, a to kvůli zkreslení průzkumníků z různých metodik.

Rozdíly v terminologii mezi obory

Over- a underdisperze jsou pojmy, které byly přijaty v oborech biologických věd. V parazitologii se termín ‚overdispersion‘ obecně používá tak, jak je zde definován — znamená distribuci s vyšším než očekávaným rozptylem.

V některých oblastech ekologie však byly významy transponovány, takže se má za to, že nadměrná dispozice ve skutečnosti znamená větší sudost (nižší rozptyl), než se očekávalo. Tento zmatek způsobil, že někteří ekologové naznačují, že termíny „agregovaný“ nebo „nakažlivý“ by se v ekologii lépe používaly pro „nadměrné dispozice“. Takové preference se vkrádají i do parazitologie. Obecně se tomuto návrhu nevěnovala pozornost a zmatek přetrvává i v literatuře.

Navíc v demografii je nadměrná náchylnost často patrná v analýze údajů o počtu úmrtí, ale demografové preferují termín ‚nepozorovaná heterogenita‘.