Ve statistice je pravděpodobnostní funkce (často jednoduše pravděpodobnost) funkcí parametrů statistického modelu, definovaných takto: pravděpodobnost množiny hodnot parametrů daných některými sledovanými výsledky se rovná pravděpodobnosti těchto sledovaných výsledků daných těmito hodnotami parametrů. Pravděpodobnostní funkce hrají klíčovou roli ve statistické inferenci, zejména v metodách odhadu parametru ze množiny statistik.
V netechnické hantýrce je „pravděpodobnost“ obvykle synonymem pro „pravděpodobnost“, ale ve statistickém užití se provádí jasné technické rozlišení. Někdo se může ptát „Kdybych hodil férovou mincí stokrát, jaká je pravděpodobnost, že pokaždé dopadne hlavou vzhůru?“ nebo „Vzhledem k tomu, že jsem hodil mincí stokrát a ona dopadla hlavou vzhůru stokrát, jaká je pravděpodobnost, že je mince férová?“ ale bylo by nepatřičné přepínat „pravděpodobnost“ a „pravděpodobnost“ ve dvou větách.
Pokud rozdělení pravděpodobnosti závisí na parametru, lze na jedné straně uvažovat – pro danou hodnotu parametru – o pravděpodobnosti (hustotě) různých výsledků, a na druhé straně uvažovat – pro daný výsledek – o pravděpodobnosti (hustotě), že tento výsledek nastal pro různé hodnoty parametru. První přístup interpretuje rozdělení pravděpodobnosti jako funkci výsledku, který dostal pevnou hodnotu parametru, zatímco druhý ho interpretuje jako funkci parametru, který dostal pevný výsledek. V druhém případě se funkce nazývá „pravděpodobnostní funkce“ parametru a udává, jak pravděpodobná je hodnota parametru ve světle sledovaného výsledku.
Pro definici pravděpodobnostní funkce je třeba rozlišovat diskrétní a spojité rozdělení pravděpodobnosti.
Diskrétní rozdělení pravděpodobnosti
Nechť X je náhodná proměnná s diskrétním rozložením pravděpodobnosti p v závislosti na parametru θ. Pak funkce
považovaná za funkci θ, se nazývá funkce pravděpodobnosti (z θ, vzhledem k výsledku x z X). Někdy je pravděpodobnost na hodnotě x z X pro hodnotu parametru θ psána jako , ale neměla by být považována za podmíněnou pravděpodobnost.
Kontinuální rozdělení pravděpodobnosti
Nechť X je náhodná proměnná se spojitým rozložením pravděpodobnosti s hustotou funkce f v závislosti na parametru θ. Pak funkce
považovaná za funkci θ, se nazývá funkce pravděpodobnosti (z θ, vzhledem k výsledku x z X). Někdy je funkce hustoty pro hodnotu x z X pro hodnotu parametru θ zapsána jako , ale neměla by být považována za podmíněnou hustotu pravděpodobnosti.
Skutečná hodnota funkce pravděpodobnosti nemá žádný význam. Její použití spočívá ve srovnání jedné hodnoty s jinou. Např. jedna hodnota parametru může být pravděpodobnější než jiná, vzhledem k výsledku vzorku. Nebo bude nejpravděpodobnější konkrétní hodnota: odhad maximální pravděpodobnosti. Srovnání může být také provedeno při zvažování kvocientu dvou hodnot pravděpodobnosti. To je důvod, proč obecně může být libovolný kladný násobek výše definované funkce . Přesněji řečeno, funkce pravděpodobnosti je libovolný zástupce z třídy ekvivalence funkcí,
které jsou invariantní s ohledem na konstantu proporcionality α.
Edwards definoval podporu jako přirozený logaritmus pravděpodobnostního poměru a podpůrnou funkci jako přirozený logaritmus pravděpodobnostní funkce (stejné jako pravděpodobnostní logaritmus; viz níže). Existuje však možnost záměny s matematickým významem ‚podpora‘ a tato terminologie není mimo Edwardsovu hlavní aplikovanou oblast fylogenetiky široce používána.
Další informace o vyvozování závěrů pomocí pravděpodobnostních funkcí najdete také v metodě testování maximální pravděpodobnosti a poměru pravděpodobnosti.
Pro mnoho aplikací zahrnujících funkce pravděpodobnosti je pohodlnější pracovat z hlediska přirozeného logaritmu funkce pravděpodobnosti, nazývaného funkce pravděpodobnosti logaritmu, než z hlediska funkce pravděpodobnosti samotné. Protože logaritmus je monotónně rostoucí funkce, logaritmus funkce dosahuje své maximální hodnoty ve stejných bodech jako funkce samotná, a proto lze logaritmus pravděpodobnosti použít místo pravděpodobnosti v odhadu maximální pravděpodobnosti a souvisejících technikách. Nalezení maxima funkce často zahrnuje odvození funkce a řešení pro parametr, který je maximalizován, a to je často jednodušší, když funkce, která je maximalizována, je funkce pravděpodobnosti logaritmu spíše než původní funkce pravděpodobnosti.
Některé funkce pravděpodobnosti jsou například pro parametry, které vysvětlují kolekci statisticky nezávislých pozorování. V takové situaci jsou faktory pravděpodobnostní funkce do součinu funkcí individuální pravděpodobnosti. Logaritmus tohoto součinu je součtem jednotlivých logaritmů a derivace součtu pojmů je často snadněji vypočitatelná než derivace součinu. Kromě toho několik běžných distribucí má funkce pravděpodobnosti, které obsahují součiny faktorů zahrnujících exponenciaci. Logaritmus takové funkce je součtem součinů, opět snadněji rozlišitelných než původní funkce.
Jako příklad uveďme gama rozdělení, jehož pravděpodobnostní funkce je
a předpokládejme, že si přejeme najít odhad maximální pravděpodobnosti β pro jedinou pozorovanou hodnotu x. Tato funkce vypadá poněkud skličující. S jejím logaritmem se však pracuje mnohem jednodušeji:
Parciální derivace vzhledem k β je jednoduše
Nastavení, že se rovná nule a řešení pro β výnosy
kde označuje odhad s maximální pravděpodobností a je výběrovým průměrem pozorování.
Pravděpodobná funkce parametrizovaného modelu
Z mnoha aplikací zde považujeme za jednu z široce teoretických a praktických. Vzhledem k parameterizované rodině funkcí hustoty pravděpodobnosti (nebo pravděpodobnostních hmotnostních funkcí v případě diskrétních distribucí)
kde θ je parametr, pravděpodobnostní funkce je
Poznámka: To není totéž jako pravděpodobnost, že tyto parametry jsou správné, vzhledem k pozorovanému vzorku. Pokus interpretovat pravděpodobnost hypotézy dané pozorovaným důkazem jako pravděpodobnost hypotézy je častou chybou, s potenciálně katastrofálními důsledky v reálném světě v medicíně, inženýrství nebo judikatuře. Pro příklad viz omyl prokurátora.
Z geometrického hlediska, pokud uvažujeme f (x, θ) jako funkci dvou proměnných, pak rodinu rozdělení pravděpodobnosti lze chápat jako rovinné křivky rovnoběžné s osou x, zatímco rodina funkcí pravděpodobnosti jsou ortogonální rovinné křivky rovnoběžné s osou θ.
Pravděpodobnosti kontinuálního rozdělování
Použití hustoty pravděpodobnosti místo pravděpodobnosti při určení pravděpodobnostní funkce výše může být odůvodněno jednoduchým způsobem. Předpokládejme, že místo přesného pozorování x je pozorování hodnotou v krátkém intervalu (xj−1, xj), s délkou Δj, kde dolní indexy odkazují na předem definovanou množinu intervalů. Pak je pravděpodobnost získání tohoto pozorování (bytí v intervalu j) přibližně
kde x* může být libovolný bod v intervalu j. Potom, připomeneme-li, že funkce pravděpodobnosti je definována až do multiplikativní konstanty, je stejně platné říci, že funkce pravděpodobnosti je přibližně
a pak, na uvážení délky intervalů snížit na nulu,
Pravděpodobnosti smíšeného kontinuálního–diskrétního rozdělení
kde může být libovolný bod v intervalu j. Pak, při zvažování délky intervalů snížit na nulu, funkce pravděpodobnosti pro pozorování z diskrétní složky je
kde k je index diskrétní pravděpodobnostní hmotnosti odpovídající pozorování x.
Skutečnost, že pravděpodobnostní funkce může být definována způsobem, který zahrnuje příspěvky, které nejsou souměřitelné (hustota a pravděpodobnostní hmotnost), vyplývá ze způsobu, jakým je pravděpodobnostní funkce definována až do konstanty proporcionality, kde se tato „konstanta“ může měnit s pozorováním x, ale ne s parametrem θ.
Pravděpodobnost funkce pro odhad pravděpodobnosti mince přistání heads-up bez předchozí znalosti po pozorování HH
Funkce pravděpodobnosti pro odhad pravděpodobnosti přistání mince heads-up bez předchozí znalosti po pozorování HHT
Dovolit je pravděpodobnost, že určité mince pozemky hlavy nahoru (H) když hodil. Takže, pravděpodobnost dostat dvě hlavy ve dvou hodech (HH) je . Pokud , Pak pravděpodobnost vidět dvě hlavy je 0,25.
V symbolech můžeme říci výše uvedené jako:
Jiný způsob, jak říci, že je to zvrátit a říci, že „pravděpodobnost, že , Vzhledem k tomu, pozorování HH, je 0,25“; to je:
Ale to není totéž jako říkat, že pravděpodobnost, že , Vzhledem k pozorování HH, je 0,25.
Všimněte si, že pravděpodobnost, že , Vzhledem k pozorování HH, je 1. Ale to je jasně není pravda, že pravděpodobnost, že , Vzhledem k pozorování HH, je 1. Dvě hlavy v řadě sotva dokazuje, že mince vždy přijde nahoru hlavy. Ve skutečnosti, dvě hlavy v řadě je možné pro všechny .
Funkce pravděpodobnosti není funkcí hustoty pravděpodobnosti. Všimněte si, že integrál funkce pravděpodobnosti není obecně 1. V tomto příkladu integrál pravděpodobnosti v intervalu [0, 1] v je 1/3, což prokazuje, že funkce pravděpodobnosti nemůže být interpretována jako funkce hustoty pravděpodobnosti pro .
Vezměme si sklenici obsahující N losy očíslované od 1 do N. Pokud si vyberete tip náhodně pak dostanete kladné číslo n, s pravděpodobností 1/N pokud n ≤ N a s pravděpodobností nula pokud n > N. To lze zapsat
kde Iversonova závorka [n ≤ N] je 1, když n ≤ N a 0 jinak.
Když se uvažuje funkce n pro fixní N, je to rozdělení pravděpodobnosti, ale když se uvažuje funkce N pro fixní n, je to pravděpodobnostní funkce. Maximální odhad pravděpodobnosti pro N je N0 = n (naproti tomu nezaujatý odhad je 2n − 1).
Tato funkce pravděpodobnosti není rozdělení pravděpodobnosti, protože celkový
Předpokládejme však, že si vyberete dva lístky místo jednoho.
Pravděpodobnost výsledku {n1, n2}, kde n1 < n2, je
Pokud se uvažuje jako funkce N pro fixní n2, jedná se o funkci pravděpodobnosti. Maximální odhad pravděpodobnosti pro N je N0 = n2.
je konvergentní řada, a tak tato pravděpodobnostní funkce může být normalizována do rozdělení pravděpodobnosti.
Pokud vyberete 3 nebo více tipů, funkce pravděpodobnosti má dobře definovanou střední hodnotu, která je větší než odhad maximální pravděpodobnosti. Pokud vyberete 4 nebo více tipů, funkce pravděpodobnosti má také dobře definovanou směrodatnou odchylku.
Předpokládejme, že odhad maximální pravděpodobnosti pro θ je . Relativní pravděpodobnosti jiných hodnot θ lze nalézt porovnáním pravděpodobnosti těchto jiných hodnot s pravděpodobností . Relativní pravděpodobnost θ je definována jako .
A 10% pravděpodobnost regionu pro θ je
a obecněji, a p% pravděpodobnost region pro θ je definována jako
Je-li θ jediný reálný parametr, oblast p% pravděpodobnosti bude obvykle zahrnovat interval reálných hodnot. V takovém případě se oblast nazývá interval pravděpodobnosti.
Pravděpodobnostní intervaly lze porovnat s intervaly spolehlivosti. Pokud je θ jediný reálný parametr, pak za určitých podmínek bude interval pravděpodobnosti 14,7% pro θ stejný jako interval spolehlivosti 95%. V mírně odlišném složení vhodném pro použití log-pravděpodobnosti je interval pravděpodobnosti e−2 stejný jako interval spolehlivosti 0,954 (za určitých podmínek).
Myšlenka založit odhad intervalu na relativní pravděpodobnosti sahá až k Fisherovi v roce 1956 a od té doby ji má mnoho autorů. Pokud má být interval pravděpodobnosti specificky interpretován jako interval spolehlivosti, pak tato myšlenka bezprostředně souvisí s testem poměru pravděpodobnosti, který lze použít k definování vhodných intervalů pro vícerozměrné parametry. Tento přístup lze použít k definování kritických bodů pro statistiku poměru pravděpodobnosti k dosažení požadované úrovně pokrytí pro interval spolehlivosti. Nicméně interval pravděpodobnosti může být použit jako takový, protože byl stanoven dobře definovaným způsobem, aniž by se tvrdila nějaká konkrétní pravděpodobnost pokrytí.
Pravděpodobnosti, které eliminují rušivé parametry
V mnoha případech je pravděpodobnost funkcí více než jednoho parametru, ale zájem se zaměřuje na odhad pouze jednoho, nebo nanejvýš několika z nich, přičemž ostatní jsou považovány za obtěžující parametry. Bylo vyvinuto několik alternativních přístupů k odstranění takových obtěžujících parametrů, takže pravděpodobnost může být zapsána jako funkce pouze parametru (nebo parametrů) zájmu; hlavní přístupy jsou marginální, podmíněné a profilové pravděpodobnosti.
Tyto přístupy jsou užitečné, protože standardní metody pravděpodobnosti se mohou stát nespolehlivými nebo zcela selhat, pokud existuje mnoho parametrů rušivých vlivů nebo pokud jsou parametry rušivých vlivů vysokodimenzionální. To platí zejména tehdy, pokud lze parametry rušivých vlivů považovat za „chybějící údaje“; představují nezanedbatelný zlomek počtu pozorování a tento zlomek se při zvětšení velikosti vzorku nesnižuje. Často lze tyto přístupy použít k odvození uzavřených vzorců pro statistické testy, pokud přímé použití maximální pravděpodobnosti vyžaduje iterační numerické metody. Tyto přístupy nacházejí uplatnění v některých specializovaných tématech, jako je sekvenční analýza.
Někdy je možné najít dostatečnou statistiku parametrů obtěžování a podmiňování této statistiky má za následek pravděpodobnost, která nezávisí na parametrech obtěžování.
Jeden příklad se vyskytuje ve 2×2 tabulkách, kde podmiňování všech čtyř mezních součtů vede k podmíněné pravděpodobnosti založené na necentrálním hypergeometrickém rozdělení. Tato forma podmiňování je také základem Fisherova přesného testu.
Někdy můžeme rušivé parametry odstranit tím, že uvažujeme o pravděpodobnosti založené pouze na části informací v datech, například tím, že použijeme sadu hodností spíše než číselné hodnoty. Jiný příklad se vyskytuje v lineárních smíšených modelech, kde zvažování pravděpodobnosti pro zbytky až po osazení fixních efektů vede k odhadu maximální pravděpodobnosti zbytkových složek rozptylu.
Často je možné zapsat některé parametry jako funkce jiných parametrů, čímž se sníží počet nezávislých parametrů.
(Funkce je hodnota parametru, která maximalizuje pravděpodobnost danou hodnotou ostatních parametrů.)
Tento postup se nazývá koncentrace parametrů a výsledkem je funkce koncentrované pravděpodobnosti, také občas známá jako funkce maximalizované pravděpodobnosti, ale nejčastěji nazývaná funkce profilové pravděpodobnosti.
Vezměme si například model regresní analýzy s normálně rozloženými chybami. Nejpravděpodobnější hodnotou rozptylu chyb je rozptyl reziduí. Rezidua závisí na všech ostatních parametrech. Parametr rozptylu lze tedy zapsat jako funkci ostatních parametrů.
Na rozdíl od podmíněných a mezních pravděpodobností lze vždy použít metody pravděpodobnosti profilu, a to i v případě, že pravděpodobnost profilu nelze výslovně zapsat. Pravděpodobnost profilu však není skutečnou pravděpodobností, protože není založena přímo na rozdělení pravděpodobnosti, a to vede k některým méně uspokojivým vlastnostem. Byly učiněny pokusy o zlepšení tohoto stavu, což vedlo ke změně pravděpodobnosti profilu.
Myšlenka pravděpodobnosti profilu může být také použita pro výpočet intervalů spolehlivosti, které mají často lepší vlastnosti malých vzorků než ty, které jsou založeny na asymptotických standardních chybách vypočítaných z plné pravděpodobnosti. V případě odhadu parametrů v částečně sledovaných systémech může být pravděpodobnost profilu také použita pro analýzu identifikovatelnosti. Implementace je dostupná v MATLAB Toolbox PottersWheel.
Částečná pravděpodobnost je faktorová složka pravděpodobnostní funkce, která izoluje sledované parametry. Je klíčovou složkou modelu proporcionálních rizik.
V angličtině se „pravděpodobnost“ rozlišuje jako příbuzná, ale slabší než „pravděpodobnost“ od jejího prvního použití. Srovnání hypotéz pomocí hodnocení pravděpodobnosti se používá po staletí, například Johnem Miltonem v Aeropagitica: „když je přinesena největší pravděpodobnost, že takové věci jsou skutečně a skutečně v těch osobách, kterým jsou připisovány“.
V dánštině použil výraz „pravděpodobnosti“ Thorvald N. Thiele v roce 1889.
V angličtině se „pravděpodobnost“ objevuje v mnoha spisech Charlese Sanderse Peirceho, kde je odvozenina založená na modelu (obvykle únos, ale někdy včetně indukce) odlišena od statistických postupů založených na objektivní randomizaci. Peirceho preference pro odvozeninu založenou na randomizaci je diskutována v „Illustrations of the Logic of Science“ (1877-1878) a „A Theory of Probable Inference“ (1883)“.
„Pravděpodobnosti, které jsou striktně objektivní a zároveň velmi velké, ačkoliv nemohou být nikdy absolutně průkazné, by nicméně měly ovlivnit naši preferenci jedné hypotézy před druhou; ale nepatrné pravděpodobnosti, i když objektivní, nestojí za úvahu; a čistě subjektivní pravděpodobnosti by měly být zcela opomenuty. Neboť jsou pouhým vyjádřením našich předpojatých představ“ (7.227 v jeho Sebraných dokumentech).
„Zkušenost však musí být naším grafem v ekonomické navigaci; a zkušenost ukazuje, že pravděpodobnosti jsou zrádnými vodítky. Nic nezpůsobilo u všelijakých badatelů tolik plýtvání časem a prostředky jako to, že se tazatelé natolik zaklínali jistými pravděpodobnostmi, že zapomněli na všechny ostatní faktory ekonomiky výzkumu; takže pokud není velmi pevně zakotvena, je pravděpodobnosti mnohem lépe nevěnovat pozornost nebo ji téměř nevěnovat; a i když se zdá, že je pevně zakotvena, mělo by se k ní přistupovat obezřetně, s ohledem na jiné úvahy a se vzpomínkou na způsobené katastrofy.“ (Essential Peirce, svazek 2, strany 108–109)
Stejně jako Thiele, Peirce uvažuje o pravděpodobnosti binomického rozdělení. Peirce používá logaritmus poměru šancí v celé své kariéře. Peirce sklon k použití log odds je diskutován Stephen Stigler.[citace potřebné]
Ve Velké Británii byla „pravděpodobnost“ popularizována v matematické statistice R.A. Fisherem v roce 1922: „Na matematických základech teoretické statistiky“. V této práci Fisher také používá termín „metoda maximální pravděpodobnosti“. Fisher argumentuje proti inverzní pravděpodobnosti jako základu pro statistické dedukce a místo toho navrhuje dedukce založené na pravděpodobnostních funkcích. Fisherovo použití „pravděpodobnosti“ stanovilo terminologii, kterou používají statistici po celém světě.