Odlehčovač

Ve statistice je outlier jedno pozorování „daleko“ od zbytku dat.

out·li·er
n.
1.Člověk, jehož trvalé bydliště leží ve značné vzdálenosti od místa jeho podnikání.
2.Hodnota daleko od většiny ostatních v souboru dat: „Odlehlé objekty ztěžují statistické analýzy“ (Harvey Motulsky).
3.Geologie. Část stratifikované horniny oddělená od hlavního útvaru erozí.

Ve většině vzorků dat budou některé datové body dále od svých očekávaných hodnot, než je považováno za rozumné. To může být způsobeno systematickou chybou nebo chybami v teorii, která generovala očekávané hodnoty. Odlehlé body proto mohou označovat chybná data, chybné postupy nebo oblasti, kde určitá teorie nemusí být platná. V normálních distribucích se však očekává malý počet odlehlých hodnot.

Definování a být první a třetí kvartil, a být interkvartil rozsah (), jedna z možných definic bytí „daleko“ v této souvislosti je:

definovat tzv. vnitřní ploty, za kterými by pozorování bylo označeno jako mírná odlehlost.

V případě normálně rozložených dat, při použití výše uvedených definic, bude jen asi 1 ze 150 pozorování mírnou odlehlou a jen asi 1 ze 425 000 extrémní odlehlou. Z tohoto důvodu odlehlé hodnoty obvykle vyžadují zvláštní pozornost, protože mohou naznačovat problémy při vzorkování nebo sběru nebo přepisu dat.

Alternativně může být odlehlá hodnota výsledkem chyby v předpokládané teorii, která si žádá další zkoumání výzkumníkem.

I když je běžný model vhodný pro analyzovaná data, očekávají se odlehlé hodnoty pro velké velikosti vzorku a neměly by být automaticky vyřazeny, pokud tomu tak je. Rovněž by měla být zvážena možnost, že základní rozložení dat není přibližně normální a má „tučné ohony“. Například při odběru vzorků z Cauchyho rozložení se rozptyl vzorku zvyšuje s velikostí vzorku, průměr vzorku se s rostoucí velikostí vzorku nesbližuje a odlehlé hodnoty se očekávají v mnohem větší míře než u normálního rozložení.