Robustní statistiky – Dobrá psychoterapie

Robustní statistika poskytuje alternativní přístup ke klasickým statistickým metodám. Motivací je vytvářet odhady, které nejsou příliš ovlivněny malými odchylkami od modelových předpokladů

Ve statistice se klasické metody ve velké míře opírají o předpoklady, které v praxi často nejsou splněny. Zejména se často předpokládá, že data jsou normálně distribuována, alespoň přibližně, nebo že při tvorbě normálně distribuovaných odhadů lze spoléhat na centrální limitní větu. Bohužel, pokud jsou v datech odlehlé hodnoty, mají klasické metody často velmi špatný výkon. Robustní statistika se snaží poskytnout metody, které napodobují klasické metody, ale které nejsou příliš ovlivněny odlehlými hodnotami nebo jinými malými odchylkami od modelových předpokladů.

Pro kvantifikaci robustnosti metody je nutné definovat některá měřítka robustnosti. Zřejmě nejčastější z nich jsou bod rozpadu a vlivová funkce, popsané níže.

Mezi dobré knihy o robustních statistikách patří knihy Hubera (1981), Hampela a kol. (1986) a Rousseeuwa a Leroye (1987). Moderní zpracování podává Maronna a kol. (2006). Huberova kniha je zcela teoretická, zatímco kniha Rousseewa a Leroye je velmi praktická (i když jsou sekce pojednávající o softwaru dosti zastaralé, převážná část knihy je stále velmi aktuální). Hampel a kol. (1987) a Maronna a kol. (2006) spadají někam do střední cesty. Všechny čtyři z nich jsou doporučenou četbou, i když Maronna a kol. jsou nejaktuálnější.

Robustní parametrická statistika má tendenci spoléhat na nahrazení normálního rozdělení v klasických metodách t-distribucí s nízkým stupněm volnosti (vysoká kurtóza; v praxi byly často shledány jako užitečné stupně volnosti mezi 4 a 6) nebo se směsí dvou nebo více distribucí.

Příklad: rychlost světelných dat

Gelman et al in Bayesian Data Analysis (2004) se zabývají datovým souborem týkajícím se rychlosti světelných měření provedených Simonem Newcombem. Datové soubory pro tuto knihu lze nalézt na stránce Classic data sets page a webové stránky knihy obsahují více informací o datech.

I když se zdá, že převážná část údajů je rozložena víceméně normálně, existují dvě zřejmé odlehlé hodnoty. Tyto odlehlé hodnoty mají velký vliv na průměr, který je k nim přitahuje a vzdaluje se od středu převážné části údajů. Je-li tedy průměr zamýšlen jako míra umístění středu údajů, je v určitém smyslu zkreslený, jsou-li odlehlé hodnoty přítomny.

Také je známo, že rozdělení průměru je asymptoticky normální kvůli centrální limitní větě. Nicméně odlehlé hodnoty mohou způsobit, že rozdělení průměru není normální ani pro poměrně velké soubory dat. Kromě této nenormálnosti je průměr také neefektivní v přítomnosti odlehlých hodnot a jsou k dispozici méně variabilní měřítka polohy.

Na zákresu níže je znázorněn graf hustoty rychlosti světelných dat spolu s kobercovým zákresem (panel (a)). Dále je znázorněn běžný QQ-zákres (panel (b)). Na těchto zákresech jsou jasně viditelné odlehlé body.

Panely (c) a (d) grafu zobrazují bootstrapové rozdělení průměru (c) a 10% zkráceného průměru (d). Upravený průměr je jednoduchý robustní odhad polohy, který z každého konce dat odstraní určité procento pozorování (10% zde) a pak vypočítá průměr obvyklým způsobem. Analýza byla provedena v R a pro každý surový a zkrácený průměr bylo použito 10 000 bootstrapových vzorků.

Rozložení průměru je jasně mnohem širší než u 10% zkráceného průměru (grafy jsou ve stejném měřítku). Všimněte si také, že zatímco rozložení zkráceného průměru se zdá být blízké normálu, rozložení surového průměru je docela vychýlené doleva. Takže v tomto vzorku 66 pozorování pouze 2 krajní hodnoty způsobují, že centrální limitní věta je nepoužitelná.

Robustní statistické metody, jejichž jednoduchým příkladem je zkrácený průměr, se snaží překonat klasické statistické metody v přítomnosti odlehlých hodnot, nebo obecněji v případech, kdy základní parametrické předpoklady nejsou zcela správné.

Zatímco oříznutý průměr si v tomto příkladu vede dobře ve vztahu k průměru, jsou k dispozici lepší robustní odhady. Ve skutečnosti jsou průměr, medián a oříznutý průměr všechny zvláštní případy M-odhadů. Podrobnosti jsou uvedeny v níže uvedených oddílech.

Odlehlé hodnoty v údajích o rychlosti světla nemají pouze nepříznivý vliv na průměr. Obvyklým odhadem rozsahu je směrodatná odchylka a tato veličina je ještě hůře ovlivněna odlehlými hodnotami, protože čtverce odchylek od průměru přecházejí do kalcifikace, takže účinky odlehlých hodnot jsou umocněny.

Níže uvedené grafy ukazují rozdělení směrodatné odchylky, střední absolutní odchylky (MAD) a Qn odhadu rozsahu (Rousseeuw a Croux, 1993). Grafy jsou založeny na 10000 bootstrapových vzorcích pro každý odhad a do převzorkovaných dat (vyhlazený bootstrap) byl přidán nějaký normální náhodný šum. Panel a) ukazuje rozdělení směrodatné odchylky, (b) MAD a (c) Qn.

Rozložení směrodatné odchylky je nevyzpytatelné a široké, je výsledkem odlehlých hodnot. MAD se chová lépe a Qn je o něco účinnější než MAD. Tento jednoduchý příklad ukazuje, že pokud jsou odlehlé hodnoty přítomny, nelze směrodatnou odchylku doporučit jako odhad rozsahu.

Manuální screening odlehlých hodnot

Odlehlé hodnoty mohou často interagovat tak, že se navzájem maskují. Jako jednoduchý příklad si vezměme malý jednorozměrný datový soubor obsahující jednu skromnou a jednu velkou odlehlou hodnotu. Odhadovaná směrodatná odchylka bude velkou odlehlou hodnotou hrubě nafouknuta. Výsledkem je, že skromná odlehlá hodnota vypadá relativně normálně. Jakmile je velká odlehlá hodnota odstraněna, odhadovaná směrodatná odchylka se zmenší a skromná odlehlá hodnota nyní vypadá neobvykle.

Tento problém s maskováním se zhoršuje s rostoucí složitostí dat. Například při regresních problémech se používají diagnostické grafy k identifikaci odlehlých hodnot. Je však běžné, že jakmile se odstraní několik odlehlých hodnot, ostatní se zviditelní. Ve vyšších dimenzích je tento problém ještě horší.

Robustní metody poskytují automatické způsoby detekce, snižování váhy (nebo odstraňování) a označování odlehlých hodnot, což do značné míry odstraňuje potřebu manuálního screeningu.

Přestože se tento článek zabývá obecnými principy pro jednorozměrné statistické metody, robustní metody existují také pro regresní problémy, zobecněné lineární modely a odhad parametrů různých distribucí.

Základními nástroji používanými k popisu a měření robustnosti jsou bod rozpadu, ‚vlivová funkce a křivka citlivosti.

Intuitivně je bod rozpadu na odhadce je podíl nesprávných pozorování (tj. libovolně velké pozorování), které může odhadce zvládnout před tím, než dá libovolně velký výsledek. Například vzhledem k nezávislým náhodným proměnným a odpovídající realizace , Můžeme použít k odhadu průměru. Takový odhad má bod rozpadu 0, protože můžeme libovolně velké jen tím, že změní některý z .

Čím vyšší je bod rozkladu odhadu, tím je robustnější. Intuitivně můžeme pochopit, že bod rozkladu nemůže překročit 50%, protože pokud je více než polovina pozorování kontaminována, není možné rozlišovat mezi základním rozložením a kontaminujícím rozložením. Proto je maximální bod rozkladu 0,5 a existují odhady, které takového bodu rozkladu dosahují. Například medián má bod rozkladu 0,5. X% oříznutý průměr má bod rozkladu X%, pro zvolenou úroveň X. Huber (1981) a Maronna et al (2006) obsahují více podrobností.

Příklad: rychlost světelných dat

V případě rychlosti světla způsobí odstranění dvou nejnižších pozorování změnu průměru z 26,2 na 27,75, tedy změnu o 1,55. Odhad rozsahu vytvořený Qn metodou je 6,3. Intuitivně to můžeme vydělit druhou odmocninou velikosti vzorku, abychom získali robustní standardní chybu, a zjistíme, že tato veličina je 0,78. Změna průměru vyplývající z odstranění dvou odlehlých hodnot je tedy přibližně dvakrát větší než robustní standardní chyba.

10% zkrácený průměr pro údaje o rychlosti světla je 27,43. Odstranění dvou nejnižších pozorování a přepočítání dává 27,67. Je zřejmé, že zkrácený průměr je méně ovlivněn odlehlými hodnotami a má vyšší bod rozpadu.

Všimněme si, že pokud nahradíme nejnižší pozorování, -44, číslem -1000, stane se průměr 11,73, zatímco 10% oříznutý průměr je stále 27,43. V mnoha oblastech aplikované statistiky je běžné, že data jsou log-transformována tak, aby byla téměř symetrická. Velmi malé hodnoty se při log-transformování stávají velkými zápornými a nuly se stávají záporně nekonečnými. Proto je tento příklad praktický zajímavý.

Empirická vlivová funkce

Empirická vlivová funkce nám dává představu o tom, jak se chová odhadce, když změníme jeden bod ve vzorku a spoléháme se na data (tj. žádné modelové předpoklady). Následující obrázek je Tukeyho dvouváhová funkce, která, jak uvidíme později, je příkladem toho, jak by měla vypadat „dobrá“ (ve smyslu definovaném později) empirická vlivová funkce:

Souvislosti jsou následující:

Definice empirické vlivové funkce je:
Dovolit a jsou iid a je vzorek z těchto proměnných. je odhad. Dovolit . Empirická vlivová funkce při pozorování je definována takto:

Ve skutečnosti to znamená, že i-tou hodnotu ve vzorku nahrazujeme libovolnou hodnotou a díváme se na výstup odhadu.

Ovlivňující funkce a křivka citlivosti

Místo toho, abychom se spoléhali pouze na data, mohli bychom použít rozložení náhodných proměnných. Přístup je zcela odlišný od přístupu předchozího odstavce. To, o co se nyní snažíme, je zjistit, co se stane s odhadcem, když mírně změníme rozložení dat.

Dovolit být konvexní podmnožinou souboru všech konečných podepsaných opatření na . Chceme odhadnout parametr rozdělení v . Nechť funkční je asymptotická hodnota některých odhadce posloupnosti . Budeme předpokládat, že tato funkční je Fisher konzistentní, tj. . to znamená, že v modelu , na odhadce posloupnosti asymptoticky měří správné množství.

Dovolit být nějaké rozdělení v . Co se stane, když data nenásledují model přesně, ale jiný, trochu jiný, „jít směrem“ ?

který je směrový derivace v , Ve směru .

Dovolit . je míra pravděpodobnosti, která dává hmotnost 1 až . Zvolili jsme . Funkce vliv je pak definována podle:

Popisuje vliv infinitezimální kontaminace v bodě na odhad, který hledáme, standardizovaný hmotností kontaminace (asymptotická předpojatost způsobená kontaminací v pozorování).

Vlastnosti ovlivňující funkce, které ji propůjčují požadovaný výkon, jsou:

Tato hodnota, která vypadá hodně jako Lipschitzova konstanta, představuje vliv posunutí pozorování mírně od do sousedního bodu , tj. přidat pozorování v a odstranit jeden v .

(Matematický kontext tohoto odstavce je uveden v části o empirických vlivových funkcích.)

Historicky bylo navrženo několik přístupů k robustnímu odhadu, včetně R-estimátorů a L-estimátorů. Nicméně M-estimátory se nyní zdají dominovat oboru v důsledku jejich obecnosti, vysokého bodu rozpadu a jejich účinnosti. Viz Huber (1981).

M-odhady jsou zobecněním maximálních pravděpodobnostních odhadů (MLE). To, co se snažíme udělat s MLE je maximalizovat nebo, ekvivalentně, minimalizovat . V roce 1964, Huber navrhl zobecnit to na minimalizaci , Kde je nějaká funkce. MLE jsou proto zvláštní případ M-odhady (odtud název: „Maximální pravděpodobnost typu“ odhady).

Minimalizace může být často provedeno diferenciací a řešení , Kde pokud má derivace, to je.

Několik možností a byly navrženy. Dva obrázky níže ukazují čtyři funkce a jejich korespondující funkce.

U čtvercových chyb se zvyšuje zrychlující rychlostí, zatímco u absolutních chyb se zvyšuje konstantní rychlostí. Při použití Windsorizing se zavádí směs těchto dvou efektů: u malých hodnot x se zvyšuje čtvercovou rychlostí, ale jakmile je dosaženo zvolené prahové hodnoty (1,5 v tomto příkladu), rychlost nárůstu se stává konstantní.

Tukeyho funkce dvojzávaží (také známá jako bisquare) se zpočátku chová podobně jako funkce čtvercové chyby, ale u větších chyb se funkce zužuje.

Vlastnosti M-odhadců

Všimněte si, že M-odhady se nutně nevztahují k hustotě pravděpodobnosti. Jako takové nelze obecně použít nepříliš obvyklé přístupy k odvozování, které vyplývají z teorie pravděpodobnosti.

Lze prokázat, že M-estimátory jsou asymptoticky normálně rozloženy, takže dokud lze vypočítat jejich standardní chyby, je k dispozici přibližný přístup k dedukci.

Vzhledem k tomu, že M-odhady jsou normální pouze asymptoticky, pro malé velikosti vzorků by mohlo být vhodné použít alternativní přístup k dedukci, například bootstrap. M-odhady však nejsou nutně jedinečné (tj. může existovat více než jedno řešení, které rovnicím vyhovuje). Je také možné, že jakýkoli konkrétní bootstrap vzorek může obsahovat více odlehlých hodnot, než je bod rozkladu odhadce. Proto je při navrhování bootstrap schémat nutná určitá opatrnost.

Samozřejmě, jak jsme viděli na příkladu s rychlostí světla, průměr je normálně rozložen pouze asymptoticky a při přítomnosti odlehlých hodnot může být aproximace velmi špatná i pro poměrně velké vzorky. Klasické statistické testy, včetně testů založených na průměru, jsou však obvykle ohraničeny výše nominální velikostí testu. Totéž neplatí pro M-odhady a chybovost typu I může být podstatně nad nominální úrovní.

Tyto úvahy nijak „neruší“ M-odhad. Pouze objasňují, že při jejich používání je nutná určitá péče, jako je tomu u jakékoli jiné metody odhadu.

Ovlivňující funkce M-odhadu

Lze ukázat, že vlivová funkce M-odhadu je úměrná (viz Huber, 1981 (a 2004), strana 45), což znamená, že můžeme odvodit vlastnosti takového odhadu (jako je jeho bod odmítnutí, citlivost na hrubou chybu nebo citlivost na lokální posun), když známe jeho funkci.

V mnoha praktických situacích není volba funkce rozhodující pro získání dobrého robustního odhadu a mnoho voleb přinese podobné výsledky, které nabízejí velká zlepšení, pokud jde o efektivitu a předpojatost, oproti klasickým odhadům v přítomnosti odlehlých hodnot (Huber, 1981).

Teoreticky by měly být preferovány redescenční funkce a oblíbenou volbou je Tukeyho funkce dvojzávaží (také známá jako bisquare). Maronna et al (2006) doporučují funkci dvojzávaží s účinností při normálním nastavení na 85%.

Robustní parametrické přístupy

M-odhady se nemusí nutně vztahovat k funkci hustoty, a tak nejsou plně parametrické. Plně parametrické přístupy k robustnímu modelování a inferenci, jak bayesovské, tak i pravděpodobné přístupy, se obvykle zabývají těžkoocasými distribucemi, jako je Studentovo t-rozdělení.

U t-rozdělení se stupni volnosti lze prokázat, že

Pro , t-rozdělení je ekvivalentní k Cauchyho rozdělení. Všimněte si, že stupně volnosti jsou někdy známy jako parametr kurtózy. Je to parametr, který určuje, jak těžké ocasy jsou. V zásadě lze z dat odhadnout stejně jako jakýkoli jiný parametr. V praxi je běžné, že existuje vícenásobná lokální maxima, když je dovoleno se lišit. Jako takové je běžné stanovit na hodnotě kolem 4 nebo 6. Na obrázku níže je zobrazena -funkce pro 4 různé hodnoty .

Příklad: rychlost světelných dat

Pro rychlost světelných dat, což umožňuje kurtosis parametr měnit a maximalizovat pravděpodobnost, dostaneme

Fixace a maximalizace pravděpodobnosti dává

Klíčovými přispěvateli do oblasti robustních statistik jsou Frank Hampel, Peter J. Huber, Peter J. Rousseeuw a John Tukey.

Robustní statistika – přístup založený na vlivových funkcích, Frank R. Hampel, Elvezio M. Ronchetti, Peter J. Rousseeuw a Werner A. Stahel, Wiley, 1986 (znovu publikováno v paperbacku, 2005)

Robust Statistics, Peter. J. Huber, Wiley, 1981 (znovu publikováno v paperbacku, 2004)

Robust Regression and Outlier Detection, Peter J. Rousseeuw and Annick M. Leroy, Wiley, 1987 (znovu publikováno v paperbacku, 2003)

Robustní statistika – teorie a metody, Ricardo Maronna, Doug Martin a Victor Yohai, Wiley, 2006

Bayesovská analýza dat, Andrew Gelman, John B. Carlin, Hal S. Stern a Donald B. Rubin, Chapman & Hall/CRC, 2004

Alternatives to the Median Absolute Deviation, P. J. Rousseeuw and C. Croux, C., Journal of the American Statistical Association, 88, 1993