Chyby a zbytky ve statistikách

Ve statistice jsou pojmy chyba a zbytkové snadno zaměnitelné.

Chyba je chybné pojmenování; chyba je množství, o které se pozorování liší od své očekávané hodnoty; ta druhá je založena na celé populaci, ze které byla statistická jednotka náhodně vybrána. Očekávaná hodnota, která je průměrem celé populace, je typicky nepozorovatelná. Jestliže průměrná výška 21letých mužů je 5 stop 9 palců a jeden náhodně vybraný muž měří 5 stop 11 palců, pak „chyba“ je 2 palce; jestliže náhodně vybraný muž měří 5 stop 7 palců, pak „chyba“ je −2 palce. Nomenklatura vznikla z náhodných chyb měření v astronomii. Je to, jako by měření výšky člověka bylo pokusem změřit populační průměr, takže jakýkoliv rozdíl mezi výškou člověka a průměrem by byl chybou měření.

Zbytkový je naopak pozorovatelný odhad nepozorovatelné chyby. Nejjednodušší případ zahrnuje náhodný vzorek n mužů, jejichž výška se měří. Průměr vzorku se používá jako odhad populačního průměru. Pak máme:

Všimněte si, že součet reziduí v náhodném vzorku je nutně nulový, a tudíž rezidua nejsou nutně nezávislá. Součet chyb nemusí být nulový; chyby jsou nezávislé náhodné proměnné, pokud jsou jednotlivci vybráni z populace nezávisle.

Příklad, s některými z matematické teorie

Pokud předpokládáme normálně rozdělenou populaci se střední μ a směrodatnou odchylkou σ, a vybereme jedince nezávisle, pak máme

je náhodná veličina rozdělená takto:

vzhledem k tomu, že zbytky jsou

(Jak se často stává, „klobouk“ nad písmenem ε označuje pozorovatelný odhad nepozorovatelné veličiny zvané ε.)

Součet čtverců chyb, vydělený σ2, má rozdělení chí-kvadrát s n stupňů volnosti:

Tato veličina však není pozorovatelná. Součet čtverců zbytkových veličin je naopak pozorovatelný. Podíl tohoto součtu podle σ2 má rozdělení chí-kvadrát pouze s n − 1 stupni volnosti:

Je pozoruhodné, že dvě náhodné proměnné, součet čtverců reziduí a výběrového průměru, mohou být na sobě nezávislé. Tato skutečnost a výše uvedené normální a chí-kvadrátové rozdělení tvoří základ výpočtů intervalu spolehlivosti založených na Studentově t-rozdělení. V těchto výpočtech se člověk setká s kvocientem

Doporučujeme:  Prenatální

ve kterém se σ objevuje jak v čitateli, tak ve jmenovateli a ruší se. To je štěstí, protože v praxi by člověk neznal hodnotu σ2.