Multikolinearita odkazuje na lineární vzájemnou korelaci mezi proměnnými. Jednoduše řečeno, pokud nominálně „odlišné“ míry skutečně kvantifikují stejný jev ve významné míře – tzn. že proměnné mají různá jména a možná používají různé numerické měřící stupnice, ale vzájemně vysoce korelují – jsou nadbytečné.
Hlavním nebezpečím takové nadbytečnosti dat je nadměrné vybavení v modelech regresní analýzy. Nejlepší regresní modely jsou takové, ve kterých predikční proměnné vzájemně vysoce korelují se závislou (výstupní) proměnnou, ale korelují mezi sebou nanejvýš jen minimálně. Takový model se často nazývá „low noise“ a bude statisticky robustní (to znamená, že bude spolehlivě predikovat napříč mnoha vzorky množin proměnných vybraných ze stejné statistické populace).
Viz Multi-kolinearity Variance Inflace a Orthogonalizace v regresi od Dr. Alex Yu.
Jak zjistit, zda máte multikolinearitu:
1) Velké změny v odhadovaných regresních koeficientech při přidání nebo vypuštění prediktorové proměnné
2) Nevýznamné výsledky jednoduchých lineárních regresí
3) Odhadované regresní koeficienty mají opačné znaménko než predikované
4) formální detekce-tolerance nebo variační inflační faktor (VIF)
Tolerance menší než 0,1 znamená, že máte problém s multikolinearitou.
1) Přítomnost multikolinearity nemá vliv na namontovaný model za předpokladu, že proměnné prediktoru sledují stejný vzorec multikolinearity jako data, na kterých je regresní model založen.
2) Proměnná prediktoru může být vypuštěna, aby se snížila multikolinearita. (Ale pak nedostanete žádné informace z vypuštěné proměnné)
3) Můžete být schopni přidat případ rozbít multicollinearity
4) Odhadnout regresní koeficienty z různých souborů dat
Poznámka: multicollinearity=špatné pro předpovědi