Maximální pravděpodobnost

Odhad maximální pravděpodobnosti (MLE) je populární statistická metoda používaná pro přizpůsobení matematického modelu některým datům. Modelování dat reálného světa pomocí odhadu maximální pravděpodobnosti nabízí způsob, jak vyladit volné parametry modelu tak, aby se dobře hodily.

Metoda byla průkopníkem genetikem a statistikem Sirem R. A. Fisherem v letech 1912 až 1922. Má široké uplatnění v různých oblastech, včetně:

Metoda maximální pravděpodobnosti odpovídá mnoha dobře známým metodám odhadu ve statistikách. Například předpokládejme, že vás zajímají výšky Američanů. Máte vzorek určitého počtu Američanů, ale ne celé populace, a zaznamenáváte jejich výšky. Dále jste ochotni předpokládat, že výšky jsou normálně rozloženy s nějakým neznámým průměrem a rozptylem. Vzorkový průměr je pak odhad maximální pravděpodobnosti populačního průměru a rozptyl vzorku je blízká aproximace odhadu maximální pravděpodobnosti populačního rozptylu (viz příklady níže).

Pro pevnou množinu dat a základní pravděpodobnostní model vybírá maximální pravděpodobnost hodnoty parametrů modelu, díky kterým jsou data „pravděpodobnější“, než by je činily jakékoliv jiné hodnoty parametrů. Odhad maximální pravděpodobnosti poskytuje jedinečný a snadný způsob, jak určit řešení v případě normálního rozdělení a mnoha dalších problémů, i když u velmi složitých problémů tomu tak nemusí být. Pokud se předpokládá jednotné předchozí rozdělení nad parametry, shoduje se odhad maximální pravděpodobnosti s jeho nejpravděpodobnějšími hodnotami.

Následující diskuse předpokládá, že čtenáři jsou obeznámeni se základními pojmy v teorii pravděpodobnosti, jako je rozdělení pravděpodobnosti, funkce hustoty pravděpodobnosti, náhodné proměnné a očekávání. Předpokládá také, že jsou obeznámeni se standardními základními technikami maximalizace spojitých reálných funkcí, jako je použití diferenciace k nalezení maxima funkce.

Vezměme si skupinu rozdělení pravděpodobnosti, která je parametrizována neznámým parametrem (který by mohl být vektorově oceněn), spojeným buď se známou funkcí hustoty pravděpodobnosti (kontinuální rozdělení), nebo se známou funkcí hmotnosti pravděpodobnosti (diskrétní rozdělení), označenou jako . Z tohoto rozdělení odebereme vzorek n hodnot a pomocí nich pak vypočítáme (multivariační) hustotu pravděpodobnosti spojenou s našimi pozorovanými daty,

Jako funkce θ s x1, …, xn fixní, to je funkce pravděpodobnosti

Metoda maximální pravděpodobnosti odhadne θ tak, že najde hodnotu θ, která maximalizuje . Toto je odhad maximální pravděpodobnosti (MLE) θ:

a protože maxima jsou neovlivněny monotónní transformace, lze vzít logaritmus tohoto výrazu proměnit na součet:

Maximum tohoto výrazu pak lze nalézt číselně pomocí různých optimalizačních algoritmů.

To kontrastuje s hledáním nezaujatého odhadu θ, který nemusí nutně přinést MLE, ale který přinese hodnotu, která (v průměru) nebude mít tendenci nadhodnocovat ani podceňovat skutečnou hodnotu θ.

Všimněte si, že odhad maximální pravděpodobnosti nemusí být unikátní, nebo dokonce ani nemusí existovat.

Odhad maximální pravděpodobnosti volí hodnotu parametru, která dává pozorovaným datům největší možnou pravděpodobnost (nebo hustotu pravděpodobnosti v kontinuálním případě). Pokud se parametr skládá z několika složek, pak definujeme jejich samostatné odhady maximální pravděpodobnosti jako odpovídající složku MLE celého parametru. V souladu s tím platí, že pokud je MLE pro θ a pokud g je nějaká funkce θ, pak je MLE pro α = g(θ) podle definice

Doporučujeme:  Wikipedie Výběr CD

Maximalizuje tzv. profilovou pravděpodobnost:

U malého počtu vzorků může být odchylka odhadů maximální pravděpodobnosti značná. Vezměme si případ, kdy n tipů číslovaných od 1 do n je umístěno v poli a jeden je vybrán náhodně (viz jednotné rozložení); velikost vzorku je tedy 1. Pokud n není známo, pak odhad maximální pravděpodobnosti n je číslo m na losovaném tipu. (Pravděpodobnost je 0 pro n < m, 1/n pro n ≥ m, a to je největší, když n = m. Všimněte si, že odhad maximální pravděpodobnosti n se vyskytuje v dolním extrému možných hodnot {m, m+1, ...}, spíše než někde ve „středu“ rozsahu možných hodnot, což by mělo za následek menší odchylku.) Očekávaná hodnota čísla m na losovaném tipu, a tedy očekávaná hodnota , je (n+1)/2. Výsledkem je, že odhad maximální pravděpodobnosti pro n bude systematicky podceňovat n o (n-1)/2 s velikostí vzorku 1.

V mnoha případech se provádí odhad pomocí sady nezávislých identicky rozložených měření. Ta mohou odpovídat odlišným prvkům z náhodného vzorku, opakovaným pozorováním atd. V takových případech je zajímavé určit chování daného odhadce, protože počet měření se zvyšuje do nekonečna, označované jako asymptotické chování.

Vzhledem k tomu, že Cramérova-Raova vazba hovoří pouze o nezaujatých odhadcích, zatímco odhad maximální pravděpodobnosti je obvykle zkreslený, asymptotická účinnost, jak je zde definována, nic neznamená: možná existují jiné téměř nezaujaté odhady s mnohem menším rozptylem. Lze však ukázat, že mezi všemi pravidelnými odhadci, což jsou odhadci, kteří mají asymptotické rozložení, které není dramaticky narušeno malými změnami parametrů, je asymptotické rozložení odhadu maximální pravděpodobnosti nejlepší možné, tj. nejkoncentrovanější.

Některé podmínky pravidelnosti, které zajišťují toto chování jsou:

Některé případy, kdy výše popsané asymptotické chování neplatí, jsou uvedeny dále.

Odhad na hranici. Někdy leží odhad maximální pravděpodobnosti na hranici množiny možných parametrů, nebo (pokud hranice není, přesně řečeno, povolena) se pravděpodobnost zvětšuje s tím, jak se parametr přibližuje k hranici. Standardní asymptotická teorie potřebuje předpoklad, že skutečná hodnota parametru leží mimo hranici. Pokud máme dostatek dat, bude se odhad maximální pravděpodobnosti držet také mimo hranici. Ale u menších vzorků může odhad ležet na hranici. V takových případech asymptotická teorie jasně neposkytuje prakticky užitečnou aproximaci. Příkladem by zde byly modely rozptylových složek, kde každá složka rozptylu, σ2, musí splňovat omezení σ2 ≥0.

Hranice dat závislá na parametrech. Aby se teorie uplatnila jednoduchým způsobem, neměla by množina hodnot dat, která má kladnou pravděpodobnost (nebo kladnou hustotu pravděpodobnosti), záviset na neznámém parametru. Jednoduchým příkladem, kde taková závislost na parametrech platí, je případ odhadu θ ze množiny nezávislých identicky rozložených, když společné rozdělení je v rozsahu (0,θ) jednotné. Pro účely odhadu je příslušný rozsah θ takový, že θ nemůže být menší než největší pozorování. V tomto případě existuje odhad maximální pravděpodobnosti, který má určité dobré chování, ale asymptotika není taková, jak je uvedeno výše.

Doporučujeme:  Chorea

Parametry obtěžování. Pro odhady maximální pravděpodobnosti může mít model několik parametrů obtěžování. Pro asymptotické chování, které je naznačeno, aby vydrželo, by se počet parametrů obtěžování neměl zvyšovat s počtem pozorování (velikost vzorku). Známým příkladem tohoto případu je případ, kdy se pozorování vyskytují v párech, kdy pozorování v každé dvojici mají jiný (neznámý) průměr, ale jinak jsou pozorování nezávislá a normálně rozložená se společným rozptylem. Zde pro pozorování 2N existují parametry N+1. Je dobře známo, že odhad maximální pravděpodobnosti rozptylu se neshoduje se skutečnou hodnotou rozptylu.

Zvyšování informací. Aby se asymptotika udržela v případech, kdy neplatí předpoklad nezávislých identicky rozložených pozorování, je základním požadavkem, aby se množství informací v datech zvětšovalo donekonečna s tím, jak se zvětšuje velikost vzorku. Takový požadavek nemusí být splněn, pokud buď existuje příliš velká závislost v datech (například pokud jsou nová pozorování v podstatě totožná se stávajícími pozorováními), nebo pokud jsou nová nezávislá pozorování vystavena rostoucí chybě pozorování.

Diskrétní rozdělení, konečný parametrický prostor

Vidíme, že pravděpodobnost je maximalizována, když p=2/3, a tak toto je náš odhad maximální pravděpodobnosti pro p.

Diskrétní rozdělení, souvislý parametrický prostor

Nyní předpokládejme, že bychom měli pouze jednu minci, ale její p mohla být libovolná hodnota 0 ≤ p ≤ 1. Musíme maximalizovat funkci pravděpodobnosti:

přes všechny možné hodnoty 0 ≤ p ≤ 1.

Jedním ze způsobů, jak maximalizovat tuto funkci, je rozlišení s ohledem na p a nastavení na nulu:

Pravděpodobnost různých hodnot parametrů poměrů pro binomický proces s t = 3 a n = 10; odhad ML se vyskytuje v režimu s vrcholem (maximem) křivky.

který má řešení p=0, p=1 a p=49/80. Řešení, které maximalizuje pravděpodobnost, je jasně p=49/80 (protože p=0 a p=1 vedou k nulové pravděpodobnosti). Takže říkáme, že maximální odhad pravděpodobnosti pro p je 49/80.

Tento výsledek lze snadno zobecnit nahrazením písmene jako t na místě 49, které reprezentuje pozorovaný počet ‚úspěchů‘ našich Bernoulliho zkoušek, a písmenem jako n na místě 80, které reprezentuje počet Bernoulliho zkoušek. Přesně stejný výpočet přináší maximální odhad pravděpodobnosti t / n pro libovolnou posloupnost n Bernoulliho zkoušek, které vedou k t ‚úspěchům‘.

Kontinuální distribuce, kontinuální parametrický prostor

Pro normální rozdělení, které má hustotu pravděpodobnosti funkce

odpovídající hustota pravděpodobnosti funkce pro vzorek n nezávislých identicky distribuovaných normálních náhodných veličin (pravděpodobnost) je

Doporučujeme:  Západní filozofie

kde je výběrový průměr.

Tato rodina distribucí má dva parametry: θ=(μ,σ), takže maximalizujeme pravděpodobnost, , nad oběma parametry současně, nebo pokud je to možné, jednotlivě.

Vzhledem k tomu, že logaritmus je spojitá striktně rostoucí funkce v rozsahu pravděpodobnosti, hodnoty, které maximalizují pravděpodobnost, také maximalizují její logaritmus. Vzhledem k tomu, že maximalizace logaritmu často vyžaduje jednodušší algebru, je to logaritmus, který je maximalizován níže. (Poznámka: pravděpodobnost logaritmu úzce souvisí s informační entropií a Fisherovou informací.)

To je skutečně maximum funkce, protože je to jediný bod obratu v μ a druhá derivace je striktně menší než nula. Její očekávaná hodnota se rovná parametru μ daného rozdělení,

což znamená, že odhad maximální pravděpodobnosti je nezkreslený.

Podobně rozlišujeme pravděpodobnost logaritmu s ohledem na σ a rovná se nule:

Pro výpočet jeho očekávané hodnoty je vhodné přepsat výraz z hlediska náhodných proměnných s nulovým průměrem (statistická chyba) . Vyjádření odhadu v těchto proměnných přinese

Zjednodušení výraz výše, s využitím skutečnosti, že a , Umožňuje nám získat

To znamená, že odhad je zkreslený (Nicméně, je konzistentní).

Formálně říkáme, že maximální pravděpodobnost odhad pro je:

V tomto případě by mohly být ML získány jednotlivě. Obecně tomu tak nemusí být a ML by musely být získány současně.

Může se stát, že proměnné spolu korelují, a v takovém případě nejsou nezávislé. Dvě náhodné proměnné X a Y jsou nezávislé pouze tehdy, je-li jejich společná funkce hustoty pravděpodobnosti součinem jednotlivých funkcí hustoty pravděpodobnosti, tj.

Předpokládejme, že jeden konstruuje pořadí Gaussův vektor z náhodných proměnných , Kde každá proměnná má prostředky dané . Dále nechť kovariance matice být označena

Funkce hustoty společné pravděpodobnosti těchto náhodných veličin je pak dána:

V případě dvou proměnných je funkce hustoty pravděpodobnosti spojení dána:

V tomto a dalších případech, kdy existuje funkce hustoty spoje, je funkce pravděpodobnosti definována výše, v Zásadách, pomocí této hustoty.

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese