Koeficient stanovení

Ve statistice je koeficient determinace R2 podíl variability v datovém souboru, který je započítán statistickým modelem. Pro R2 existuje několik běžných a ekvivalentních výrazů. Nejčastější verze ve statistických textech je založena na následující analýze rozkladu variance:

To znamená, že je celkový součet čtverců, je vysvětlený součet čtverců, a je zbytkový součet čtverců.

Vysvětlení a výklad R2

Pro výkladové účely zvažte lineární model formuláře

kde Yi je proměnná odezvy, jsou neznámé koeficienty; jsou p regresory a je střední nulový chybový výraz. Koeficient určení R2 je míra globálního uložení modelu. Konkrétně je to prvek [0,1] a představuje podíl variability v Yi, který může být přiřazen nějaké lineární kombinaci regresorů (vysvětlujících proměnných) v X.

Zjednodušeně řečeno, R2 je často interpretováno jako podíl variace odezvy „vysvětlený“ regresory v modelu. Tedy indikuje, že montovaný model vysvětluje veškerou variabilitu v , zatímco indikuje žádný ‚lineární‘ vztah mezi proměnnou odezvy a regresory. Vnitřní hodnota jako může být interpretována takto: „Přibližně sedmdesát procent variace v proměnné odezvy může být vysvětleno vysvětlující proměnnou. Zbývajících třicet procent může být vysvětleno neznámými, číhajícími proměnnými nebo inherentní variabilitou.“

Pokud existuje pouze jeden skalární-oceňuje regresorem, pak je druhou mocninou korelace mezi regresorem a proměnné odezvy. Obecněji, je druhou mocninou korelace mezi y a .

V regresi nejmenších čtverců se R2 slabě zvyšuje v počtu regresorů v modelu. Jako takové nemůže být R2 použito jako smysluplné srovnání modelů s různými počty kovariant. Pro připomenutí, někteří autoři označují R2 pomocí R2p, kde p je počet sloupců v X

Prokázání této vlastnosti je triviální. Pro začátek připomeňme, že cílem regrese nejmenších čtverců je (v maticové notaci)

Optimální hodnota cíle je při přidávání dalších sloupců slabě menší tím, že relativně neomezená minimalizace vede k řešení, které je slabě menší než relativně omezená minimalizace. Vzhledem k předchozímu závěru a s tím, že závisí pouze na y, neklesající vlastnost R2 vyplývá přímo z výše uvedené definice.

Doporučujeme:  Druhy

Upravený R2 je modifikace R2, která se upravuje podle počtu vysvětlujících pojmů v modelu. Na rozdíl od R2 se upravený R2 zvyšuje pouze tehdy, pokud nový výraz vylepšuje model více, než by se očekávalo náhodou. Upravený R2 může být záporný a vždy bude menší než R2. Upravený R2 je definován jako

kde p je celkový počet regresorů v lineárním modelu a n je velikost vzorku.

Upravená R2 nemá stejnou interpretaci jako R2. Proto je třeba dbát na interpretaci a vykazování této statistiky. Upravená R2 je užitečná zejména ve fázi výběru funkcí při sestavování modelu.