Předchozí pravděpodobnost

Předchozí pravděpodobnost je mezní pravděpodobnost, interpretovaná jako popis toho, co je známo o proměnné při neexistenci nějakého důkazu.
Zadní pravděpodobnost je pak podmíněná pravděpodobnost proměnné s přihlédnutím k důkazu.
Zadní pravděpodobnost se vypočítává z předchozí a pravděpodobnostní funkce prostřednictvím Bayesovy věty.

Vzhledem k tomu, že předchozí a zadní nejsou pojmy používané ve frekvenčních analýzách,
tento článek používá slovník bayesovské pravděpodobnosti a bayesovské inference.

V celém tomto článku pojem proměnná pro stručnost zahrnuje pozorovatelné proměnné, latentní (nepozorované) proměnné, parametry a hypotézy.

Předchozí rozdělení pravděpodobnosti

V bayesovské statistické dedukci je rozdělení pravděpodobnosti, často nazývané jednoduše předchozí, neurčité veličiny p (například p je podíl voličů, kteří budou v budoucích volbách volit politika jménem Smith), rozdělení pravděpodobnosti, které by vyjadřovalo něčí nejistotu ohledně p před tím, než se vezmou v úvahu „data“ (například průzkum veřejného mínění). Má přisuzovat neurčité veličině spíše nejistotu než nahodilost.

Jedna platí Bayesova věta, násobení předchozí pravděpodobnostní funkce a pak normalizace, aby se dostal zadní rozdělení pravděpodobnosti, což je podmíněné rozdělení nejisté množství vzhledem k údajům.

Předchozí je často čistě subjektivní posouzení zkušeného odborníka. Někteří si zvolí konjugovaného předchozího, když mohou, aby usnadnili výpočet zadního rozdělení.

Informativní předchůdce vyjadřuje konkrétní, jednoznačnou informaci o proměnné.
Příkladem je předchozí rozdělení teploty v zítřejším poledni.
Rozumným přístupem je udělat z předchůdce normální rozdělení s očekávanou hodnotou rovnou dnešní polední teplotě s rozptylem rovnajícím se dennímu rozptylu atmosférické teploty.

Tento příklad má vlastnost společnou s mnoha předchozími
a sice, že zadní část z jednoho problému (dnešní teplota) se stává předchozí pro jiný problém (zítřejší teplota); již existující důkazy, které již byly vzaty v úvahu, jsou součástí předchozího a jak se více důkazů hromadí, předchozí je určeno spíše důkazy než jakýmkoli původním předpokladem za předpokladu, že původní předpoklad připouštěl možnost toho, co důkazy naznačují. Pojmy „předchozí“ a „zadní“ jsou obecně vztaženy ke konkrétnímu datu nebo pozorování.

Neinformativní předchůdce vyjadřuje vágní nebo obecnou informaci o proměnné.
Termín „neinformativní předchůdce“ je chybné pojmenování; takový předchůdce by mohl být nazván nepříliš informativním předchůdcem.
Neinformativní předchůdci mohou vyjadřovat informace jako „proměnná je kladná“ nebo „proměnná je menší než nějaký limit“. Některé autority preferují termín objektivní předchůdce.

Při problémech s odhadem parametrů použití neinformativního předku obvykle přináší výsledky, které se příliš neliší od konvenční statistické analýzy,
protože pravděpodobnostní funkce často přináší více informací než neinformativní předkrm.

Některé pokusy byly provedeny při hledání rozdělení pravděpodobnosti v nějakém smyslu logicky vyžadované povahou něčí stav nejistoty; ty jsou předmětem filozofické kontroverze. Například Edwin T. Jaynes publikoval argument (Jaynes 1968) založený na Lež skupin, které
naznačuje, že předchozí pro podíl voličů hlasujících pro kandidáta, vzhledem k tomu, žádné jiné informace, by měla být .
Pokud je někdo tak nejistý o hodnotě výše uvedeného podílu, že člověk ví jen to, že alespoň jeden volič bude hlasovat pro Smithe a alespoň jeden nebude, pak podmíněné rozdělení pravděpodobnosti dané této informace sám je jednotné rozdělení na intervalu [0, 1], který je získán použitím Bayes‘ Věta na soubor dat skládající se z jednoho hlasu pro Smithe a jeden hlas proti, pomocí výše uvedené předchozí.

Předchozí mohou být konstruovány, které jsou úměrné Haarově míře, pokud prostor parametrů nese přirozenou strukturu grup. Například ve fyzice můžeme očekávat, že experiment dá stejné výsledky bez ohledu na naši volbu původu souřadnicového systému. To indukuje strukturu grup translační skupiny na , A výsledná předchozí je konstantní nesprávná předchozí. Podobně, některá měření jsou přirozeně invariantní k volbě libovolné stupnice (tj. nezáleží na tom, zda použijeme centimetry nebo palce, měli bychom dostat výsledky, které jsou fyzicky stejné). V takovém případě je skupina stupnice přirozenou strukturou grup, a odpovídající předchozí na je úměrná . Někdy záleží na tom, zda použijeme levo-invariantní nebo pravo-invariantní Haarovu míru. Například levé a pravé invariantní Haarovy míry na afinní grupě nejsou stejné. Berger (1985, str. 413) tvrdí, že pravo-invariantní Haarova míra je správná volba.

Jiná myšlenka, prosazovaná Edwinem T. Jaynesem, je použít princip maximální entropie. Motivací je, že Shannonova entropie rozdělení pravděpodobnosti měří množství informací obsažených v rozdělení. Čím větší je entropie, tím méně informací je distribucí poskytnuto. Tedy maximalizací entropie přes vhodnou množinu rozdělení pravděpodobnosti na , zjistíme, že rozdělení, které je nejméně informativní v tom smyslu, že obsahuje nejméně informací v souladu s omezeními, která definují množinu. Například maximální entropie před na diskrétním prostoru, vzhledem k tomu, že pravděpodobnost je normalizována na 1, je před, který přiřazuje stejnou pravděpodobnost každému stavu. A v kontinuálním případě, maximální entropie před vzhledem k tomu, že hustota je normalizována se střední nulou a rozptyl jednoty je standardní normální rozdělení.

Související nápad, referenční priory, představil Jose M. Bernardo. Zde je záměrem maximalizovat očekávanou Kullback-Leiblerovu divergenci zadní distribuce vzhledem k předchozí. Tím se maximalizuje očekávaná zadní informace o tom, kdy je předchozí hustota . Referenční předchozí je definována v asymptotické limitě, tj. uvažuje se o limitě takto získaných priorů jako o počtu datových bodů jdoucích do nekonečna. Referenční priory jsou často objektivní předchozí volbou ve vícerozměrných problémech, protože jiná pravidla (např. Jeffreysovo pravidlo) mohou vyústit v priory s problematickým chováním.

Filozofické problémy spojené s neinformativními priory jsou spojeny s výběrem vhodné metrické, nebo měřicí stupnice. Předpokládejme, že chceme před pro rychlost běhu běžce, který je nám neznámý. Mohli bychom specifikovat, řekněme, normální rozdělení jako před pro jeho rychlost, ale alternativně bychom mohli specifikovat normální před pro čas, který trvá k dokončení 100 metrů, což je úměrné převrácené první před. Jedná se o velmi rozdílné priory, ale není jasné, které je třeba dát přednost. Podobně, pokud bychom byli požádáni o odhad neznámého poměru mezi 0 a 1, mohli bychom říci, že všechny proporce jsou stejně pravděpodobné a použít jednotný před. Alternativně bychom mohli říci, že všechny řády velikosti pro podíl jsou stejně pravděpodobné, což dává před úměrné logaritmu. Jeffreysovi předchozí pokusy vyřešit tento problém výpočtem před, který vyjadřuje stejné přesvědčení bez ohledu na to, která metrika je použita. The Jeffreys předchozí pro neznámý podíl je , Což se liší od Jaynes’ doporučení.

Praktické problémy spojené s neinformativními priory zahrnují požadavek, aby zadní distribuce byla správná. Obvyklé neinformativní priory na spojitých, neomezených proměnných jsou nesprávné. To nemusí být problém, pokud je zadní distribuce správná. Další důležitou otázkou je, že pokud má být neinformativní prior používán rutinně, tj. s mnoha různými datovými soubory, měl by mít dobré frekvenční vlastnosti. Normálně by se Bayesian takovými problémy nezabýval, ale v této situaci to může být důležité. Například by člověk chtěl, aby jakékoli rozhodovací pravidlo založené na zadní distribuci bylo přípustné podle přijaté ztrátové funkce. Přípustnost je bohužel často obtížné ověřit, i když některé výsledky jsou známy (např. Berger a Strawderman 1996). Problém je zvláště akutní u hierarchických Bayesových modelů; obvyklé priory (např. Jeffreysův prior) mohou dávat špatně nepřípustná rozhodovací pravidla, pokud jsou použity na vyšších úrovních hierarchie.

Pokud Bayes‘ věta je psána jako

pak je jasné, že by platilo i nadále, pokud by všechny předchozí pravděpodobnosti P(Ai) a P(Aj) byly vynásobeny danou konstantou; totéž by platilo pro spojitou náhodnou proměnnou. Zadní pravděpodobnosti budou stále sčítat (nebo integrovat) do 1, i když předchozí hodnoty ne, a tak je potřeba pouze specifikovat priory ve správném poměru.

Vezmeme-li tuto myšlenku dále, v mnoha případech součet nebo integrál předchozích hodnot nemusí být ani konečný, abychom získali rozumné odpovědi pro zadní pravděpodobnosti. Pokud tomu tak je, nazývá se předchozí nesprávný předchozí. Někteří statistici používají nesprávné předchozí jako neinformativní předchozí. Pokud například potřebují předchozí rozdělení pro průměr a rozptyl náhodné proměnné, mohou předpokládat p(m, v) ~ 1/v (pro v > 0), což by naznačovalo, že jakákoli hodnota pro průměr je stejně pravděpodobná a že hodnota pro kladný rozptyl se stává méně pravděpodobnou v nepřímé úměře k její hodnotě. Od

to by bylo nevhodné předchozí jak pro průměr a pro rozptyl.