Nedostatečný součet čtverců

Ve statistice je součet čtverců způsobený nedostatečným uložením, nebo stručněji součet čtverců způsobený nedostatečným uložením, jednou ze složek oddílu součtu čtverců v analýze rozptylu, která se používá v čitateli v F-testu nulové hypotézy, která říká, že navržený model dobře sedí.

Aby byl součet čtverců nevyhovující, pozorujeme více než jednu hodnotu proměnné odezvy pro každou hodnotu množiny proměnných prediktoru. Zvažme například osazení čáry

metodou nejmenších čtverců. Za odhady α a β se berou hodnoty, které minimalizují součet čtverců reziduí, tj. součet čtverců rozdílů mezi pozorovanou hodnotou y a namontovanou hodnotou y. Aby součet čtverců nevyhovoval, pozoruje se více než jedna hodnota y pro každou hodnotu x. Pak se rozdělí „součet čtverců způsobených chybou“, tj. součet čtverců reziduí, na dvě složky:

Součet čtverců způsobených „čistou“ chybou je součet čtverců rozdílů mezi každou pozorovanou hodnotou y a průměrem všech hodnot y odpovídajících stejné hodnotě x.

Součet čtverců způsobených nezapadnutím je vážený součet čtverců rozdílů mezi každým průměrem hodnot y odpovídajících stejné hodnotě x a odpovídající namontované hodnotě y, přičemž hmotnost je v každém případě jednoduše počet pozorovaných hodnot y pro danou hodnotu x.

Aby se tyto dva součty rovnaly, je nutné, aby vektor, jehož komponenty jsou „čisté chyby“ a vektor nedostatků-of-fit komponenty být kolmé k sobě, a jeden může zkontrolovat, že jsou kolmé tím, že dělá nějaké algebry.

Vezměme si osazení přímky, kde i je index každé jedinečné hodnoty x a j je index pozorování pro danou hodnotu x. Hodnota každého pozorování může být reprezentována

být odhady nejmenších čtverců nepozorovatelných parametrů α a β na základě pozorovaných hodnot x i a Y i j.

být namontované hodnoty proměnné odezvy. Pak

jsou zbytkové veličiny, což jsou pozorovatelné odhady nepozorovatelných hodnot chybového výrazu ε ij. Vzhledem k povaze metody nejmenších čtverců, celý vektor zbytkových veličin, s

Doporučujeme:  Meningiomy

skalární komponenty, nutně splňuje obě omezení

Je tedy omezena ležet v (N − 2)-dimenzionálním podprostoru R N, tj. existují N − 2 „stupně volnosti pro chybu“.

je průměr všech hodnot Y spojených s určitou hodnotou x.

Jsme rozdělení součet čtverců kvůli chybě do dvou složek:

Předpokládejme, že chybové veličiny ε i j jsou nezávislé a normálně distribuované s očekávanou hodnotou 0 a rozptylem σ2. S x i nakládáme spíše jako s konstantou než s náhodnou veličinou. Proměnné odezvy Y i j jsou pak náhodné jen proto, že chyby ε i j jsou náhodné.

To může být prokázáno, že v případě, že přímka-model je správné, pak součet čtverců kvůli chybě děleno rozptyl chyby,

má rozdělení chí-kvadrát s N − 2 stupně volnosti.

Z toho pak vyplývá, že statistika

má F-rozdělení s odpovídajícím počtem stupňů volnosti v čitateli a jmenovateli, za předpokladu, že přímkový model je správný. Pokud je model špatný, pak rozdělení pravděpodobnosti jmenovatele je stále takové, jak je uvedeno výše, a čitatel a jmenovatel jsou stále nezávislé. Ale čitatel pak má necentrální rozdělení chí-kvadrát, a tudíž kvocient jako celek má necentrální F-rozdělení.

Tato F-statistika se používá k testování nulové hypotézy, že přímkový model je správný. Protože necentrální F-rozdělení je stochasticky větší než (centrální) F-rozdělení, odmítáme nulovou hypotézu, pokud je F-statistika příliš velká. Jak velká je příliš velká – kritická hodnota – závisí na úrovni testu a je procentním bodem F-rozdělení.

Lze prokázat, že předpoklady normálního rozložení chyb a statistické nezávislosti znamenají, že tento test nevyhovujícího stavu je testem poměru pravděpodobnosti této nulové hypotézy.