Dostatečnost (statistika)

Dostatečnost je ve statistice vlastnost, kterou má statistika vzhledem k parametru, „když žádná jiná statistika, kterou lze vypočítat ze stejného vzorku, neposkytuje žádnou další informaci o hodnotě parametru“.

Tento koncept pochází od sira Ronalda Fishera a je ekvivalentní s nejobecnějším tvrzením výše, že za podmínky hodnoty statistiky postačitelnosti jsou rozdělení vybraných vzorků nezávislá na základním parametru (parametrech), pro který je statistika postačitelná. Jak statistika, tak základní parametr mohou být vektory.

Tento koncept upadl v nemilost v deskriptivní statistice kvůli silné závislosti na předpokladu distribuční formy, ale zůstává velmi důležitý v teoretické práci.

Tento pojem je nejobecnější, pokud je definován takto: statistika T(X) je dostatečná pro základní parametr θ právě tehdy, pokud podmíněné rozdělení pravděpodobnosti dat X, dané statistikou T(X), je nezávislé na parametru θ, tj.

Jako příklad lze uvést výběrový průměr, který postačuje pro střední hodnotu (μ) normálního rozdělení se známým rozptylem. Jakmile je znám výběrový průměr, nelze ze samotného vzorku získat žádné další informace o μ.

Fisherova-Neymanova faktorizační věta

Fisherova věta o faktorizaci neboli faktorizační kritérium poskytuje vhodnou charakteristiku postačující statistiky. Je-li funkce hustoty pravděpodobnosti ƒθ(x), pak T je postačující pro θ tehdy a jen tehdy, když lze nalézt funkce g a h takové, že

Tj. hustotu ƒ lze rozložit na součin tak, že jeden činitel, h, nezávisí na θ a druhý činitel, který závisí na θ, závisí na x pouze prostřednictvím T(x).

Z věty vyplývá, že při použití odvozování na základě věrohodnosti budou dva soubory dat, které dávají stejnou hodnotu pro statistiku postačitelnosti T(X), vždy dávat stejné závěry o θ. Podle faktorizačního kritéria je závislost věrohodnosti na θ pouze ve spojení s T(X). Protože je tato závislost v obou případech stejná, bude stejná i závislost na θ, což povede ke stejným závěrům.

Doporučujeme:  Hraniční porucha osobnosti

Důkaz pro spojitý případ

Díky Hoggovi a Craigovi (ISBN 978-0023557224). Nechť X1, X2, …, Xn označují náhodný vzorek z rozdělení s pdf f(x,θ) pro γ < θ < δ. Nechť Y = u(X1, X2, ..., Xn) je statistika, jejíž pdf je g(y;θ). Pak Y = u(X1, X2, ..., Xn) je postačující statistika pro θ tehdy a jen tehdy, když pro nějakou funkci H,

Provedeme transformaci yi = ui(x1, x2, …, xn), pro i = 1, …, n, která má inverzní funkce xi = wi(y1, y2, …, yn), pro i = 1, …, n, a jakobián J. Tedy,

Levý člen je společné pdf g(y1, y2, …, yn; θ) Y1 = u1(X1, …, Xn), …, Yn = un(X1, …, Xn). V pravém členu je pdf , takže je kvocientem a ; to znamená, že je podmíněným pdf daného .

Ale , a tak , bylo dáno, aby nebyl závislý na . Protože nebyl zaveden v transformaci a tudíž ani v jakobiánu , vyplývá, že nezávisí na a že je dostatečnou statistikou pro .

Opačný postup je dokázán vzetím:

kde nezávisí na, protože závisí pouze na, které jsou nezávislé na, když jsou podmíněny , dostatečnou statistikou podle hypotézy. Nyní oba členy vydělíme absolutní hodnotou nezanikajícího jakobiánu , a nahradíme funkcemi v . Tím získáme

kde je jakobián s nahrazen jejich hodnotou ve výrazech . Levý člen je nutně společné pdf z . Protože , a tedy , nezávisí na , pak

je funkce, která nezávisí na .

Důkaz pro diskrétní případ

Pro označení společné pravděpodobnosti používáme zkrácený zápis . Protože je funkcí , máme a tedy:

přičemž poslední rovnost platí podle definice podmíněných rozdělení pravděpodobnosti. Tedy s a .

Vzájemně, jestliže , máme

První rovnost vyplývá z definice pdf pro více proměnných, druhá z výše uvedené poznámky, třetí z hypotézy a čtvrtá proto, že součet není nad .

Podmíněné rozdělení pravděpodobnosti je tedy následující:

Doporučujeme:  Lateralizovaný potenciál připravenosti

První rovnost vyplývá z definice podmíněné hustoty pravděpodobnosti, druhá z výše uvedené poznámky, třetí z výše dokázané rovnosti a čtvrtá ze zjednodušení. Tento výraz nezávisí na a je tedy postačující statistikou.

Dostatečná statistika je minimální dostatečná statistika, pokud ji lze znázornit jako funkci jakékoli jiné dostatečné statistiky. Jinými slovy, S(X) je minimální postačující tehdy a jen tehdy, když

Minimální postačující statistika intuitivně nejefektivněji zachycuje všechny možné informace o parametru θ.

Užitečná charakteristika minimální postačitelnosti je, že pokud existuje hustota fθ, je S(X) minimálně postačující tehdy a jen tehdy, pokud

To vyplývá přímo z výše uvedené Fisherovy věty o faktorizaci.

Dostatečná a úplná statistika je nutně minimální dostatečná. Minimální postačující statistika existuje vždy; úplná statistika existovat nemusí.

Jsou-li X1, …., Xn nezávislé náhodné veličiny s Bernoulliho rozdělením a očekávanou hodnotou p, pak součet T(X) = X1 + … + Xn je postačující statistika pro p (zde „úspěch“ odpovídá a „neúspěch“ odpovídá ; takže T je celkový počet úspěchů)

To je patrné z úvahy o společném rozdělení pravděpodobnosti:

Protože pozorování jsou nezávislá, lze tuto hodnotu zapsat jako

a po sečtení mocnin p a 1 – p dostaneme hodnotu

který splňuje faktorizační kritérium, přičemž h(x)=1 je pouze konstanta.

Všimněte si zásadní vlastnosti: neznámý parametr p interaguje s daty x pouze prostřednictvím statistiky T(x) = Σ xi.

Jsou-li X1, …., Xn nezávislé a rovnoměrně rozdělené na intervalu [0,θ], pak pro θ stačí T(X) = max(X1, …., Xn ).

Abyste to viděli, uvažujte společné rozdělení pravděpodobnosti:

Protože pozorování jsou nezávislá, lze tuto hodnotu zapsat jako

kde H(x) je Heavisideova kroková funkce. Tu lze zapsat jako

kterou lze považovat za funkci pouze θ a maxi(Xi) = T(X). Z toho vyplývá, že je splněno faktorizační kritérium, přičemž h(x)=1 je opět konstantní. Všimněte si, že parametr θ interaguje s daty pouze prostřednictvím maxima dat.

Doporučujeme:  Jean Marc Gaspard Itard

Jsou-li X1, …., Xn nezávislé a mají Poissonovo rozdělení s parametrem λ, pak součet T(X) = X1 + … + Xn je postačující statistika pro λ.

Abyste to viděli, uvažujte společné rozdělení pravděpodobnosti:

Protože pozorování jsou nezávislá, lze tuto hodnotu zapsat jako

což ukazuje, že je splněno faktorizační kritérium, kde h(x) je reciproká hodnota součinu faktoriálů. Všimněte si, že parametr λ interaguje s daty pouze prostřednictvím svého součtu T(X).

Dostatečnost nachází užitečné uplatnění v Rao-Blackwellově větě. Ta říká, že pokud je g(X) libovolným odhadem θ, pak obvykle podmíněné očekávání g(X) dané T(X) je lepším odhadem θ a nikdy není horší. Někdy lze velmi snadno zkonstruovat velmi hrubý odhad g(X) a pak vyhodnocením této podmíněné očekávané hodnoty získat odhad, který je v různých smyslech optimální.