Studentovaný zůstatek

Ve statistice je Studentovaný zůstatek, pojmenovaný na počest Williama Sealeyho Gosseta, který psal pod pseudonymem Student, zůstatkem upraveným tak, že se vydělí odhadem jeho směrodatné odchylky. Studentování zůstatků je důležitou technikou při detekci odlehlých hodnot.

Je velmi důležité pochopit rozdíl mezi chybami a zbytky ve statistice. Vezměme si jednoduchý lineární regresní model

kde chyby εi, i = 1, …, n, jsou nezávislé a všechny mají stejný rozptyl σ2. Zbytky nejsou pravdivé a nepozorovatelné chyby, ale jsou to spíše odhady, založené na pozorovatelných datech, chyb. Pokud je metoda nejmenších čtverců použita k odhadu α0 a α1, pak zbytky, na rozdíl od chyb, nemohou být nezávislé, protože splňují obě omezení

je ith reziduum.) Navíc, rezidua, na rozdíl od chyb, nemají všechny stejný rozptyl: rozptyl (kontra-intuitivně) klesá s tím, jak se odpovídající hodnota x vzdaluje od průměrné hodnoty x. Skutečnost, že rozptyly reziduí se liší, i když rozptyly skutečných chyb jsou všechny stejné, je hlavním důvodem potřeby Studentizace.

Pro tento jednoduchý model je konstrukční matice

a „klobouková matice“ H je matice kolmého průmětu na sloupovou plochu návrhové matice:

„Pákový“ hii je ith diagonální vstup v matici klobouku. Rozptyl ith reziduum je

Odpovídající Studentovaný zůstatek je pak

kde je odpovídající odhad σ.

Vnitřní a vnější studium

kde m je počet parametrů v modelu (2 v našem příkladu).
Je však žádoucí vyloučit ith pozorování z procesu odhadu rozptylu, když se zvažuje, zda ith případ může být odlehlý. V důsledku toho lze použít odhad

na základě všech kromě případu ith. Je-li použit druhý odhad, vyjma případu ith, pak se o reziduu říká, že je externě studováno; je-li použito první, včetně případu ith, pak je interně studováno.

Doporučujeme:  Standardní chyba

Pokud jsou chyby nezávislé a normálně distribuované s očekávanou hodnotou 0 a rozptylem σ2, pak rozdělení pravděpodobnosti ith externě Studentovaný zbytek je Studentovo t-rozdělení s n − m − 1 stupni volnosti a může se pohybovat od do .

Na druhou stranu, interně Studentované zbytky jsou v rozsahu , kde r.d.f. je počet zbytkových stupňů volnosti, tedy n − m. Pokud „i.s.r.“ představuje interně Studentovaný zbytkový, a opět za předpokladu, že chyby jsou nezávislé identicky rozložené Gaussovy proměnné, pak

kde t je distribuováno jako Studentovo t-rozdělení s r.d.f. − 1 stupňů volnosti. Ve skutečnosti to znamená, že i.s.r.2/r.d.f. následuje po beta rozdělení B(1/2,(r.d.f. − 1)/2). Když r.d.f. = 3, interně Studentované zbytky jsou rovnoměrně distribuovány mezi a .

Pokud existuje pouze jeden zbytkový stupeň volnosti, výše uvedený vzorec pro rozdělení interně studovaných zbytků neplatí. V tomto případě jsou i.s.r. všechny buď +1 nebo -1, s 50% šancí pro každý.

Směrodatná odchylka rozložení interně studovaných zbytků je vždy 1, ale to neznamená, že směrodatná odchylka všech i.s.r. konkrétního experimentu je 1.