Dostatečná statistika

Dostatečná statistika je ve statistice statistika, která má vlastnost dostatečnosti vzhledem ke statistickému modelu a s ním spojenému neznámému parametru, což znamená, že „žádná jiná statistika, kterou lze vypočítat ze stejného vzorku, neposkytuje žádné další informace, pokud jde o hodnotu parametru“. Statistika je pro skupinu rozdělení pravděpodobnosti dostačující, pokud vzorek, ze kterého se vypočítává, neposkytuje žádné další informace než statistika, pokud jde o to, které z těchto rozdělení pravděpodobnosti je rozložením souboru, ze kterého byl vzorek odebrán.

Zhruba, vzhledem k sadě nezávislých identicky distribuovaných dat podmíněných neznámým parametrem , dostatečná statistika je funkce, jejíž hodnota obsahuje všechny informace potřebné k výpočtu jakéhokoli odhadu parametru (např. odhad maximální pravděpodobnosti). Vzhledem k faktorizační větě (viz níže), pro dostatečnou statistiku , může být společné rozdělení zapsáno jako . Z této faktorizace lze snadno vidět, že odhad maximální pravděpodobnosti bude interagovat pouze prostřednictvím . Typicky, dostatečná statistika je jednoduchá funkce dat, např. součet všech datových bodů.

V obecnější rovině může „neznámý parametr“ představovat vektor neznámých veličin nebo může představovat vše o modelu, co není známo nebo není zcela specifikováno. V takovém případě může být dostatečnou statistikou soubor funkcí, nazývaný společně dostačující statistika. Typicky existuje tolik funkcí, kolik je parametrů. Například u Gaussova rozdělení s neznámým průměrem a rozptylem se společně dostačující statistika, z níž lze odhadnout odhady maximální pravděpodobnosti obou parametrů, skládá ze dvou funkcí, součtu všech datových bodů a součtu všech čtvercových datových bodů (nebo ekvivalentně výběrového průměru a rozptylu vzorku).

Koncepce, způsobená Ronaldem Fisherem, je ekvivalentní tvrzení, že podmíněno hodnotou dostatečné statistiky pro určitý parametr, společné rozdělení pravděpodobnosti dat nezávisí na tomto parametru. Jak statistika, tak základní parametr mohou být vektory.

Související pojem je lineární dostatečnost, která je slabší než dostatečnost, ale může být použita v některých případech, kdy neexistuje dostatečná statistika, i když je omezena na lineární odhady. Kolmogorovova struktura funkce se zabývá jednotlivými konečnými daty, související pojem je algoritmická dostatečná statistika.

Pojem dostatečnosti upadl v oblibě v deskriptivní statistice kvůli silné závislosti na předpokladu distribuční formy (viz Pitmanova–Koopmanova–Darmoisova věta níže), ale zůstává velmi důležitý v teoretické práci.

Statistika T(X) postačuje pro základní parametr θ právě tehdy, pokud podmíněné rozdělení pravděpodobnosti dat X, dané statistikou T(X), nezávisí na parametru θ, tj.

Místo tohoto posledního výrazu platí definice i v případě, že se používá některý z ekvivalentních výrazů:

které naznačují, že podmíněná pravděpodobnost parametru θ při dostatečném statistickém t nezávisí na údajích x; a že podmíněná pravděpodobnost parametru θ při dostatečném statistickém t a podmíněná pravděpodobnost údajů x při dostatečném statistickém t jsou statisticky nezávislé.

Například výběrový průměr je dostačující pro průměr (μ) normálního rozdělení se známým rozptylem. Jakmile je výběrový průměr znám, nelze ze samotného vzorku získat žádné další informace o μ. Na druhé straně medián není dostačující pro průměr: i když je medián výběrového souboru známý, znalost samotného výběrového souboru by poskytla další informace o populačním průměru. Například pokud jsou pozorování, která jsou menší než medián, jen o málo menší, ale pozorování překračující medián jej překračují o velké množství, pak by to mělo vliv na závěr o populačním průměru.

Fisherova–Neymanova věta o faktorizaci

Fisherova faktorizační věta nebo faktorizační kritérium poskytuje vhodnou charakteristiku dostatečné statistiky. Je-li hustota pravděpodobnosti funkce ƒθ(x), pak T je dostatečné pro θ tehdy a jen tehdy, lze-li najít nezáporné funkce g a h takové, že

Doporučujeme:  Odvykání drog

Tj. hustotu ƒ lze rozložit na součin tak, že jeden faktor, h, nezávisí na θ a druhý faktor, který závisí na θ, závisí na x pouze prostřednictvím T(x).

Výklad zásady pravděpodobnosti

Důsledkem věty je, že při použití pravděpodobnostní dedukce dva soubory dat poskytující stejnou hodnotu pro dostatečnou statistiku T(X) vždy přinesou stejné dedukce o θ. Podle faktorizačního kritéria je závislost pravděpodobnosti na θ pouze ve spojení s T(X). Protože je to v obou případech stejné, závislost na θ bude také stejná, což povede ke shodným dedukcím.

Kvůli Hoggovi a Craigovi. Nechť , označuje náhodný vzorek z rozdělení s pdf f(x, θ) pro γ < θ < δ. Nechť Y = u(X1, X2, ..., Xn) je statistika, jejíž pdf je g(y; θ). Pak Y = u(X1, X2, ..., Xn) je dostatečná statistika pro θ tehdy a jen tehdy, když pro nějakou funkci H,

Provedeme transformaci yi = ui(x1, x2, …, xn), pro i = 1, …, n, mající inverzní funkce xi = wi(y1, y2, …, yn), pro i = 1, …, n, a jakobínskou . Tedy,

Levý člen je společný pdf g(y1, y2, …, yn; θ) z Y1 = u1(X1, …, Xn), …, Yn = un(X1, …, Xn). V pravém členu je pdf z , Tak to je kvocient a ; To znamená, že je podmíněný pdf dané .

Ale , A tak , Bylo dáno není závislá na . Od nebyl zaveden v transformaci a proto není v Jacobian , Z toho vyplývá, že nezávisí na a že je dostatečná statistika pro .

Konverzace je prokázáno tím, že:

kde nezávisí na protože závisí pouze na které jsou nezávislé na když podmíněno , Dostatečná statistika hypotézou. Nyní rozdělit oba členy absolutní hodnotou non-mizející Jacobian , A nahradit funkcemi v . To přináší

kde je Jacobian s nahrazena jejich hodnota z hlediska . Levá ruka-člen je nutně společný pdf na . Od , A tedy , Nezávisí na , Pak

je funkce, která nezávisí na .

Jednodušší ilustrativnější důkaz je následující, i když platí pouze v diskrétním případě.

Používáme těsnopis notace k označení společné pravděpodobnosti o . Od je funkce , Máme (pouze tehdy a nula jinak) a tedy:

s poslední rovnost je pravda podle definice podmíněného rozdělení pravděpodobnosti. Tedy s a .

Recipročně, pokud , Máme

S první rovnosti podle definice pdf pro více proměnných, druhý podle poznámky výše, třetí podle hypotézy, a čtvrtý, protože sumace není u konce .

Tedy podmíněné rozdělení pravděpodobnosti je:

S první rovností podle definice podmíněné hustoty pravděpodobnosti, druhou podle výše uvedené poznámky, třetí podle výše prokázané rovnosti a čtvrtou podle zjednodušení. Tento výraz nezávisí na a je tedy dostatečnou statistikou.

Dostatečná statistika je minimální dostačující, pokud může být reprezentována jako funkce jakékoli jiné dostatečné statistiky. Jinými slovy, S(X) je minimální dostačující tehdy a jen tehdy, jestliže

Intuitivně minimální dostatečná statistika nejúčinněji zachycuje všechny možné informace o parametru θ.

Užitečnou charakteristikou minimální dostatečnosti je, že pokud existuje hustota fθ, S(X) je minimální dostatečná tehdy a jen tehdy, jestliže

To vyplývá jako přímý důsledek z Fisher je faktorizace věta uvedeno výše.

Případ, kdy neexistuje žádná minimální dostatečná statistika, ukázal Bahadur v roce 1954. Avšak za mírných podmínek existuje vždy minimální dostatečná statistika. Zejména v euklidovském prostoru platí tyto podmínky vždy, pokud náhodné proměnné (spojené s ) jsou všechny diskrétní nebo jsou všechny spojité.

Pokud existuje minimální dostatečná statistika, a to je obvykle tento případ, pak každá úplná dostatečná statistika je nutně minimální dostatečná (všimněte si, že toto tvrzení nevylučuje možnost patologického případu, ve kterém úplná dostatečná existuje, zatímco neexistuje žádná minimální dostatečná statistika). I když je těžké najít případy, ve kterých neexistuje minimální dostatečná statistika, není tak těžké najít případy, ve kterých neexistuje úplná statistika.

Doporučujeme:  Školní vzdělávání

Sběr pravděpodobnostních poměrů je minimální dostačující statistika, pokud je diskrétní nebo má hustotu funkce.

Pokud X1, …., Xn jsou nezávislé náhodné proměnné s Bernoulliho distribucí s očekávanou hodnotou p, pak součet T(X) = X1 + … + Xn je dostačující statistika pro p (zde ‚úspěch‘ odpovídá Xi = 1 a ‚neúspěch‘ Xi = 0; takže T je celkový počet úspěchů)

To je vidět při zvážení společného rozdělení pravděpodobnosti:

Protože pozorování jsou nezávislá, lze to zapsat jako

a, sbírání pravomoci p a 1 − p, dává

která splňuje kritérium faktorizace, přičemž h(x) = 1 je pouze konstanta.

Všimněte si zásadní vlastnosti: neznámý parametr p interaguje s daty x pouze prostřednictvím statistiky T(x) = Σ xi.

Pokud X1, …., Xn jsou nezávislé a rovnoměrně rozložené v intervalu [0,θ], pak T(X) = max(X1, …, Xn) postačuje pro θ – výběrové maximum je dostatečnou statistikou pro populační maximum.

Abyste to viděli, zvažte funkci společné hustoty pravděpodobnosti X=(X1,…,Xn). Protože pozorování jsou nezávislá, může být pdf zapsáno jako součin jednotlivých hustot

kde 1{…} je indikační funkce. Hustota má tedy podobu požadovanou Fisherovou-Neymanovou faktorizační větou, kde h(x) = 1{min{xi}≥0}, a zbytek výrazu je funkcí pouze θ a T(x) = max{xi}.

Ve skutečnosti minimální rozptyl nezaujatého odhadu (MVUE) pro θ je

Toto je ukázkové maximum, škálované tak, aby odpovídalo zkreslení, a je MVUE podle Lehmannovy-Scheffého věty. Nezměrněné ukázkové maximum T(X) je odhad maximální pravděpodobnosti pro θ.

Jednotné rozdělení (se dvěma parametry)

Pokud jsou nezávislé a rovnoměrně distribuovány na intervalu (kde a jsou neznámé parametry), pak je dvourozměrné dostatečné statistiky pro .

Chcete-li vidět to, zvažte společné hustoty pravděpodobnosti funkce . Vzhledem k tomu, že pozorování jsou nezávislé, pdf může být napsáno jako produkt jednotlivých hustot, tj.

Hustota spoje vzorku má podobu požadovanou Fisherovou–Neymanovou faktorizační větou, nájmem

Od nezávisí na parametru a závisí pouze na prostřednictvím funkce

Fisher-Neyman faktorizace věta vyplývá, je dostatečná statistika pro .

Pokud jsou X1, …., Xn nezávislé a mají Poissonovo rozdělení s parametrem λ, pak součet T(X) = X1 + … + Xn je dostatečnou statistikou pro λ.

Chcete-li to vidět, zvažte společné rozdělení pravděpodobnosti:

Protože pozorování jsou nezávislá, lze to zapsat jako

který ukazuje, že kritérium faktorizace je splněno, kde h(x) je převrácená hodnota součinu faktoriálů. Všimněte si, že parametr λ interaguje s daty pouze prostřednictvím svého součtu T(X).

Pokud jsou nezávislé a normálně distribuované s očekávanou hodnotou θ (parametr) a známým konečným rozptylem , pak je dostatečná statistika pro θ.

Chcete-li to vidět, zvažte společné hustoty pravděpodobnosti funkce . Vzhledem k tomu, že pozorování jsou nezávislé, pdf může být napsáno jako součin jednotlivých hustot, tj. –

Pak, protože , Které mohou být prokázány jednoduše tím, že rozšiřuje tento termín,

Hustota spoje vzorku má podobu požadovanou Fisherovou–Neymanovou faktorizační větou, nájmem

Od nezávisí na parametru a závisí pouze na prostřednictvím funkce

Fisher-Neyman faktorizace věta vyplývá, je dostatečná statistika pro .

Pokud jsou nezávislé a exponenciálně rozložené s očekávanou hodnotou θ (neznámý kladný parametr s reálnou hodnotou), pak je dostatečná statistika pro θ.

Doporučujeme:  Hadi

Chcete-li to vidět, zvažte společné hustoty pravděpodobnosti funkce . Vzhledem k tomu, že pozorování jsou nezávislé, pdf může být napsáno jako součin jednotlivých hustot, tj. –

Hustota spoje vzorku má podobu požadovanou Fisherovou–Neymanovou faktorizační větou, nájmem

Od nezávisí na parametru a závisí pouze na prostřednictvím funkce

Fisher-Neyman faktorizace věta vyplývá, je dostatečná statistika pro .

Pokud jsou nezávislé a distribuované jako , Kde a jsou neznámé parametry a Gama distribuce, pak je dvojrozměrný dostatečné statistiky pro .

Chcete-li to vidět, zvažte společné hustoty pravděpodobnosti funkce . Vzhledem k tomu, že pozorování jsou nezávislé, pdf může být napsáno jako součin jednotlivých hustot, tj. –

Hustota spoje vzorku má podobu požadovanou Fisherovou–Neymanovou faktorizační větou, nájmem

Od nezávisí na parametru a závisí pouze na prostřednictvím funkce

z Fisherovy–Neymanovy věty faktorizace vyplývá, je dostatečná statistika pro

Dostatečnost nachází užitečné uplatnění v Rao-Blackwellově větě. Ta říká, že pokud g(X) je nějaký druh odhadu θ, pak typicky podmíněné očekávání g(X) dané dostatečnou statistikou T(X) je lepším odhadem θ a nikdy není horší. Někdy lze velmi snadno sestrojit velmi hrubý odhad g(X) a pak vyhodnotit tuto podmíněnou očekávanou hodnotu, aby získal odhad, který je v různých smyslech optimální.

Podle Pitmanovy–Koopmanovy–Darmoisovy věty existuje mezi rodinami rozdělení pravděpodobnosti, jejichž doména se nemění s odhadnutým parametrem, pouze v exponenciálních rodinách dostatečná statistika, jejíž rozměr zůstává ohraničen se zvětšující se velikostí vzorku. Méně stručně předpokládejme nezávislé identicky rozložené náhodné proměnné, o jejichž rozložení je známo, že jsou v nějaké rodině rozdělení pravděpodobnosti. Pouze pokud je tato rodina exponenciální rodina, existuje (případně vektorem oceněná) dostatečná statistika, jejíž počet skalárních složek se nezvyšuje se zvětšující se velikostí vzorku n.

Tato věta ukazuje, že dostatečnost (nebo spíše existence skaláru nebo vektoru-oceňují ohraničené dimenze dostatečné statistiky) ostře omezuje možné formy distribuce.

Jiné druhy dostatečnosti

Alternativní formulace podmínky, že statistika je dostačující, stanovená v bayesovském kontextu, zahrnuje zadní rozdělení získaná použitím úplného datového souboru a použitím pouze statistiky. Požadavek tedy zní, že pro téměř každé x,

Ukazuje se, že tato „bayesovská dostatečnost“ je důsledkem výše uvedené formulace, nicméně v nekonečně dimenzionálním případě nejsou přímo rovnocenné. K dispozici je řada teoretických výsledků pro dostatečnost v bayesovském kontextu.

Pojem nazývaný „lineární dostatečnost“ lze formulovat v bayesovském kontextu a obecněji. Nejprve definujte nejlepší lineární prediktor vektoru Y na základě X jako . Pak lineární statistika T(x) je lineární dostatečná, pokud

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese