Statistická regrese

Regresní analýza je ve statistice technika, která zkoumá vztah závislé proměnné (proměnné odezvy) ke specifikovaným nezávislým proměnným (vysvětlující proměnné). Regresní analýza může být použita jako popisná metoda analýzy dat (například tvarování křivek), aniž by se spoléhala na nějaké předpoklady o základních procesech generujících data.

Když se spojí s předpoklady ve formě statistického modelu, může být regrese použita pro predikci (včetně predikce dat časových řad), inferenci, testování hypotéz a modelování příčinných vztahů. Tato použití regrese silně závisí na splnění modelových předpokladů. Regresní analýza byla kritizována jako zneužitá pro tyto účely v mnoha případech, kdy nelze ověřit, že příslušné předpoklady platí. Jedním z faktorů přispívajících ke zneužití regrese je, že může být potřeba podstatně více dovednosti ke kritice modelu než k jeho přizpůsobení.

Klíčovým vztahem v regresi je regresní rovnice. regresní rovnice obsahuje regresní parametry, jejichž hodnoty se odhadují pomocí dat. Odhadované parametry měří vztah mezi závislou proměnnou a každou z nezávislých proměnných. Při použití regresního modelu se závislá proměnná modeluje jako náhodná proměnná, a to buď kvůli nejistotě ohledně její hodnoty, nebo vlastní variabilitě. Předpokládá se, že data jsou výběrem z pravděpodobnostního rozdělení, které se obvykle považuje za normální rozdělení.

Termín „regrese“ byl použit v devatenáctém století k popisu biologického jevu, totiž že potomstvo výjimečných jedinců bývá v průměru méně výjimečné než jejich rodiče a více se podobá jejich vzdálenějším předkům. Francis Galton, bratranec Charlese Darwina, studoval tento jev a aplikoval na něj mírně zavádějící termín „regrese směrem k průměrnosti“. Pro Galtona měla regrese pouze tento biologický význam, ale jeho práce byla později rozšířena Udny Yulem a Karlem Pearsonem na obecnější statistický kontext.

Ilustrace lineární regrese na datovém souboru (červené body).

Doporučujeme:  Jazykové vzdělávání

Obecná forma jednoduché lineární regrese je

kde je záchytný bod, je sklon a je chybový výraz, který zachytí nepředvídatelnou část proměnné odezvy yi. Chybový výraz je obvykle předpokládán jako normálně rozložený. Hodnoty ‚s a ‚s jsou datové veličiny z daného vzorku nebo souboru a a jsou neznámé parametry („konstanty“), které mají být odhadnuty z dat. Odhady pro hodnoty a mohou být odvozeny metodou obyčejných nejmenších čtverců. Metoda se nazývá „nejmenších čtverců“, protože odhady a minimalizují součet čtvercových odhadů chyb pro daný datový soubor. Odhady a jsou často označovány a nebo jejich odpovídajícími římskými písmeny. Lze ukázat (viz Draper a Smith, 1998 pro podrobnosti), že odhady nejmenších čtverců jsou dány

kde je průměr (průměr) hodnot a je průměr hodnot.

Zobecnění jednoduché lineární regrese

Výše uvedený jednoduchý model lze zobecnit různými způsoby.

Jakmile je sestaven regresní model, je důležité potvrdit správnost uložení modelu a statistickou významnost odhadovaných parametrů. Mezi běžně používané kontroly správnosti uložení patří R-kvadrát, analýzy vzorce reziduí a konstrukce tabulky ANOVA. Statistická významnost je kontrolována F-testem celkového uložení, následovaným t-testy jednotlivých parametrů. Interpretace těchto diagnostik se opírají do značné míry o modelové předpoklady. Ačkoli zkoumání reziduí může být použito k zneplatnění modelu, výsledky t-testu nebo F-testu jsou bezvýznamné, pokud nejsou splněny modelovací předpoklady.

Odhad parametrů modelu

Parametry regresního modelu lze odhadnout mnoha způsoby. Následující seznam objednává tyto metody zhruba na základě toho, jak široce jsou používány v praxi:

U modelu s normálně rozloženými chybami se shodují metoda nejmenších čtverců a metoda maximální pravděpodobnosti (viz Gaussova-Markovova věta).

Interpolace a extrapolace

Regresní modely predikují hodnotu proměnné dané známými hodnotami proměnných. Pokud má být predikce provedena v rozsahu hodnot proměnných použitých pro konstrukci modelu, nazývá se to interpolace. Predikce mimo rozsah dat použitých pro konstrukci modelu se nazývá extrapolace a je více riziková.

Doporučujeme:  Automatizované rozpoznávání řeči

Předpoklady podporující regresi

Regresní analýza závisí na určitých předpokladech

Pro ilustraci různých cílů regrese uvádíme příklad.

Predikce budoucích pozorování

Rádi bychom viděli, jak váha těchto žen závisí na jejich výšce. Proto hledáme funkci, která , kde Y je váha žen a X jejich výška. Intuitivně můžeme odhadnout, že pokud jsou proporce žen konstantní a jejich hustota také, pak váha žen musí záviset na kostce jejich výšky.

Graf datového souboru tuto domněnku potvrzuje

bude označovat vektor obsahující všechny naměřené výšky () a je vektor obsahující všechny naměřené váhy. Můžeme předpokládat, že výšky žen jsou na sobě nezávislé a mají konstantní rozptyl, což znamená, že Gaussovy-Markovovy předpoklady platí. Můžeme tedy použít odhad nejmenších čtverců, tj. hledáme koeficienty a vyhovujeme co nejlépe (ve smyslu odhadu nejmenších čtverců) rovnici:

Matice (někdy nazývaná „informační matice“ nebo „disperzní matice“) je:

Graf této funkce ukazuje, že leží poměrně blízko k datovému souboru

Intervaly spolehlivosti se počítají pomocí:

Proto můžeme říci, že 95% intervaly spolehlivosti jsou:

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese