V regresní analýze je metoda nejmenších čtverců, známá také jako obyčejná analýza nejmenších čtverců, metodou lineární regrese, která určuje hodnoty neznámých veličin ve statistickém modelu minimalizací součtu čtvercových reziduí (rozdílu mezi předpovídanými a pozorovanými hodnotami). Tuto metodu poprvé popsal Carl Friedrich Gauss kolem roku 1794. Dnes je tato metoda k dispozici ve většině statistických softwarových balíků. Bylo prokázáno, že přístup regresní analýzy metodou nejmenších čtverců je optimální v tom smyslu, že splňuje Gauss-Markovovu větu.
Související metodou je metoda nejmenších středních čtverců (LMS). Nastává, když je počet měřených dat 1 a k minimalizaci čtvercového rezidua se použije metoda gradientního sestupu. Je známo, že LMS minimalizuje očekávání čtvercového rezidua, a to s nejmenším počtem operací na iteraci). Ke konvergenci však vyžaduje velký počet iterací.
Mnoho dalších typů optimalizačních problémů lze vyjádřit ve formě nejmenších čtverců, a to buď minimalizací energie, nebo maximalizací entropie.
Metoda nejmenších čtverců vznikla v astronomii a geodézii, když se vědci a matematici snažili najít řešení problémů spojených s navigací v oceánech v době objevitelství. Přesný popis chování nebeských těles byl klíčem k tomu, aby lodě mohly plout na otevřeném moři, kde se dříve námořníci museli při určování polohy svých lodí spoléhat na pozorování pevniny.
Tato metoda byla vyvrcholením několika pokroků, k nimž došlo v průběhu 18. století:
Carl Friedrich Gauss se zasloužil o vytvoření základů analýzy nejmenších čtverců v roce 1795, kdy mu bylo osmnáct let.
První ukázkou síly Gaussovy metody bylo její použití k předpovědi budoucí polohy nově objevené planetky Ceres. Dne 1. ledna 1801 objevil italský astronom Giuseppe Piazzi Ceres a byl schopen sledovat její dráhu po dobu 40 dní, než se ztratila v záři Slunce. Na základě těchto údajů bylo žádoucí určit polohu Ceres po jejím vynoření zpoza Slunce, aniž by bylo nutné řešit složité Keplerovy nelineární rovnice pohybu planet. Jediné předpovědi, které úspěšně umožnily maďarskému astronomovi Franzi Xaverovi von Zachovi určit polohu Ceres, provedl 24letý Gauss pomocí analýzy nejmenších čtverců.
Gauss tuto metodu publikoval až v roce 1809, kdy se objevila ve druhém díle jeho práce o nebeské mechanice Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium.
V roce 1829 byl Gauss schopen konstatovat, že přístup nejmenších čtverců k regresní analýze je optimální v tom smyslu, že v lineárním modelu, kde chyby mají nulovou střední hodnotu, nejsou korelované a mají stejné rozptyly, jsou nejlepšími lineárními nestrannými odhady koeficientů odhady nejmenších čtverců. Tento výsledek je znám jako Gauss-Markovova věta.
Myšlenku analýzy nejmenších čtverců nezávisle na sobě formulovali také Francouz Adrien-Marie Legendre v roce 1805 a Američan Robert Adrain v roce 1808.
Cílem je upravit modelovou funkci tak, aby co nejlépe odpovídala souboru dat. Zvolená modelová funkce má nastavitelné parametry. Datový soubor se skládá z n bodů s . Modelová funkce má tvar , kde je závislá proměnná, jsou nezávislé proměnné a jsou nastavitelné parametry modelu. Chceme najít takové hodnoty parametrů, aby model nejlépe odpovídal datům podle definovaného kritéria chyby. Metoda nejmenších čtverců minimalizuje rovnici součtové kvadratické chyby
s ohledem na nastavitelné parametry .
Příkladem jsou údaje o měření výšky nad povrchem. Zvolíme modelování dat pomocí roviny s parametry pro střední výšku roviny, úhel sklonu roviny a úhel náklonu roviny. Rovnice modelu je pak , nezávislé proměnné jsou , a nastavitelné parametry jsou .
Řešení problému nejmenších čtverců
Optimalizační problémy nejmenších čtverců lze rozdělit na lineární a nelineární. Lineární problém má řešení v uzavřeném tvaru. O optimalizačním problému se říká, že je to lineární optimalizační problém, jestliže parciální derivace prvního řádu S vzhledem k parametrům vedou k soustavě rovnic, která je lineární v proměnných parametrů. Obecný, nelineární, neomezený optimalizační problém nemá řešení v uzavřeném tvaru. V tomto případě lze použít rekurzivní metody, jako je Newtonova metoda kombinovaná s metodou gradientního sestupu, nebo specializované metody pro analýzu nejmenších čtverců, jako je Gaussův-Newtonův algoritmus nebo Levenberg-Marquardtův algoritmus.
Analýza nejmenších čtverců a regresní analýza
V regresní analýze se nahrazuje vztah
kde šumový člen ε je náhodná veličina se střední hodnotou nula. Všimněte si, že předpokládáme, že hodnoty jsou přesné a všechny chyby jsou v hodnotách. Opět rozlišujeme mezi lineární regresí, v jejímž případě je funkce f lineární v určovaných parametrech (např. f(x) = ax2 + bx + c), a nelineární regresí. Stejně jako dříve je lineární regrese mnohem jednodušší než nelineární regrese. (Je lákavé si myslet, že důvodem názvu lineární regrese je to, že graf funkce f(x) = ax + b je přímka. Ale fitování křivky jako f(x) = ax2 + bx + c při odhadu a, b a c metodou nejmenších čtverců je případem lineární regrese, protože vektor nejmenších čtverců odhadů a, b a c je lineární transformací vektoru, jehož složky jsou f(xi) + εi.
Uvědomíme-li si, že regresní model je soustavou lineárních rovnic, můžeme model vyjádřit pomocí matice dat X, cílového vektoru Y a vektoru parametrů . I-tý řádek X a Y bude obsahovat hodnoty x a y pro i-tý vzorek dat. Pak lze model zapsat jako
což při použití čistého maticového zápisu znamená
kde ε je normálně rozděleno s očekávanou hodnotou 0 (tj. sloupcovým vektorem 0) a rozptylem σ2 In, kde In je matice identity n×n.
Odhad nejmenších čtverců pro je
(kde XT je transpozice X) a součet čtverců reziduí činí
Jednou z vlastností matice nejmenších čtverců je, že matice je ortogonální projekcí Y do sloupcového prostoru X.
Při důkazech vět se neustále vychází z toho, že matice X(XTX)-1XT je symetrická idempotentní matice. Linearita matice jako funkce vektoru Y, vyjádřená výše slovy
to je důvod, proč se tato metoda nazývá „lineární“ regrese. Nelineární regrese využívá nelineární metody odhadu.
Výše uvedená matice In – X (XT X)-1 XT je symetrická idempotentní matice o hodnosti n – 2. Zde je příklad využití této skutečnosti v teorii lineární regrese. Konečná spektrální věta lineární algebry říká, že každou reálnou symetrickou matici M lze diagonalizovat ortogonální maticí G, tj. matice G′MG je diagonální maticí. Je-li matice M zároveň idempotentní, pak diagonální položky v G′MG musí být idempotentní čísla. Pouze dvě reálná čísla jsou idempotentní: In – X(XTX) -1XT má tedy po diagonalizaci n – 2 jedniček a dvě nuly na diagonále. To je většina práce při dokazování, že součet čtverců reziduí má chí-kvadrát rozdělení s n – 2 stupni volnosti.
Regresní parametry lze odhadnout také pomocí bayesovských metod. Výhodou je, že
Předpokládejme, že v lineární regresi
ze znalosti domény víme, že alfa může nabývat pouze jedné z hodnot {-1, +1}, ale nevíme které. Tuto informaci můžeme do analýzy zahrnout tak, že zvolíme prioritu pro alfa, což je diskrétní rozdělení s pravděpodobností 0,5 na -1 a 0,5 na +1. Posterior pro alfa bude také diskrétní rozdělení na {-1, +1}, ale váhy pravděpodobnosti se změní tak, aby odrážely důkazy z dat.
V moderních počítačových aplikacích se skutečná hodnota of počítá pomocí QR rozkladu nebo mírně robustnějších metod, pokud je blízko singuláru. Kód funkce zpětného lomítka „\“ v MATLABu je vynikajícím příkladem robustní metody.
Součtem pozorování, čtverců X a součinů XY získáme následující veličiny.
Odhad beta (sklonu)
Výše uvedené souhrnné statistiky použijeme k výpočtu , odhadu β.
Odhad alfa (interceptu)
Odhad β a ostatní statistiky použijeme k odhadu α pomocí:
Důsledkem tohoto odhadu je, že regresní přímka bude vždy procházet „středem“ .
Odhad nejmenších čtverců pro lineární modely je notoricky známý tím, že není odolný vůči odlehlým hodnotám. Pokud je rozložení odlehlých hodnot zkreslené, mohou být odhady zkreslené. V přítomnosti jakýchkoli odlehlých hodnot jsou odhady metodou nejmenších čtverců neefektivní a mohou být extrémně pomalé. Pokud se v datech vyskytují odlehlé hodnoty, jsou vhodnější metody robustní regrese.