Faktorová analýza je statistická metoda používaná k popisu variability mezi pozorovanými proměnnými z hlediska menšího počtu nepozorovaných proměnných nazývaných faktory. Pozorované proměnné jsou modelovány jako lineární kombinace faktorů plus „chybové“ termíny. Získané informace o vzájemných závislostech mohou být později použity k redukci souboru proměnných v datovém souboru. Faktorová analýza vznikla v psychometrice a používá se v behaviorálních vědách, společenských vědách, marketingu, produktovém managementu, provozním výzkumu a dalších aplikovaných vědách, které se zabývají velkým množstvím dat.
Analýza faktorů je často zaměňována s analýzou hlavních komponent. Obě metody spolu souvisí, ale jsou odlišné, i když analýza faktorů
se stává v podstatě rovnocennou analýze hlavních komponent, pokud se předpokládá, že „chyby“ v modelu analýzy faktorů (viz níže)
mají všechny stejný rozptyl.
Následující příklad je zjednodušením pro výkladové účely a neměl by být považován za realistický. Předpokládejme, že psycholog navrhne teorii, že existují dva druhy inteligence, „verbální inteligence“ a „matematická inteligence“, z nichž ani jeden není přímo pozorován. Důkaz pro teorii se hledá ve výsledcích zkoušek, z každého z 10 různých akademických oborů, z 1000 studentů. Je-li každý student vybrán náhodně z velké populace, pak 10 bodů každého studenta jsou náhodné proměnné. Teorie psychologa může říci, že pro každý z 10 akademických oborů je průměr skóre ve skupině všech studentů, kteří sdílejí nějaký společný pár hodnot pro verbální a matematické „inteligence“, nějaký konstantní krát jejich úroveň verbální inteligence plus další konstantní krát jejich úroveň matematické inteligence, tj. je to lineární kombinace těchto dvou „faktorů“. Čísla pro tento konkrétní předmět, kterými se oba druhy inteligence násobí, aby se získalo očekávané skóre, jsou teorií předpokládána jako stejná pro všechny páry úrovní inteligence a pro tento předmět se nazývají „zatížení faktoru“. Teorie může například předpokládat, že průměrný student má nadání v oboru obojživelnictví
Čísla 10 a 6 jsou faktorová zatížení spojená s amfibiologií. Jiné akademické předměty mohou mít různá faktorová zatížení.
Dvě bellendy, které mají shodné stupně verbální inteligence a shodné stupně matematické inteligence, mohou mít rozdílné vlohy v amfibiologii, protože individuální vlohy se liší od průměrných vloh. Tento rozdíl se nazývá „chyba“ – statistický termín, který znamená množství, o které se jednotlivec liší od množství, které je průměrné pro jeho úroveň inteligence (viz chyby a rezidua ve statistikách).
Pozorovatelná data, která vstupují do faktorové analýzy, by byla 10 skóre každého z 1000 studentů, celkem tedy 10 000 čísel. Z dat je třeba odvodit faktorové zatížení a úrovně dvou druhů inteligence každého studenta. Z dat je třeba odvodit dokonce i počet faktorů (v tomto příkladu dva).
Matematický model stejného příkladu
V příkladu výše, pro i = 1, …, 1,000 ith student skóre jsou
V maticové notaci, máme
Všimněte si, že zdvojnásobením měřítka, na kterém se měří „verbální inteligence“ – první složka v každém sloupci F – a současným snížením faktorového zatížení pro verbální inteligenci na polovinu se na modelu nic nemění. Tudíž se žádná obecnost neztratí za předpokladu, že směrodatná odchylka verbální inteligence je 1. Stejně tak pro matematickou inteligenci. Navíc z podobných důvodů se žádná obecnost neztratí za předpokladu, že oba faktory spolu nekorelují. „Chyby“ ε se považují za navzájem nezávislé. Odchylky „chyb“ spojených s deseti různými subjekty se nepředpokládají za stejné.
Všimněte si, že vzhledem k tomu, že každé střídání řešení je také řešením, je interpretace faktorů obtížná. Viz nevýhody níže. V tomto konkrétním příkladu, pokud předem nevíme, že oba typy inteligence jsou nekorektní, pak nemůžeme interpretovat oba faktory jako dva různé typy inteligence. I když jsou nekorektní, nemůžeme bez vnějšího argumentu říct, který faktor odpovídá verbální inteligenci a který matematické inteligenci.
Hodnoty zatížení L, průměrů μ a rozptylů „chyb“ ε musí být odhadnuty vzhledem k pozorovaným údajům X.
Analýza faktorů v psychometrii
Charles Spearman stál v čele využití faktorové analýzy v oblasti psychologie a někdy je mu připisován vynález faktorové analýzy. Zjistil, že výsledky školních dětí na široké škále zdánlivě nesouvisejících předmětů byly pozitivně korelovány, což ho vedlo k postulátu, že obecná mentální schopnost neboli g je základem a tvarem lidského kognitivního výkonu. Jeho postulát se nyní těší široké podpoře v oblasti výzkumu inteligence, kde je znám jako teorie g.
Raymond Cattell rozšířil Spearmanovu myšlenku dvoufaktorové teorie inteligence po provedení vlastních testů a faktorové analýzy. K vysvětlení inteligence použil vícefaktorovou teorii. Cattellova teorie se zabývala alternativními faktory v intelektuálním vývoji, včetně motivace a psychologie. Cattell také vyvinul několik matematických metod pro úpravu psychometrických grafů, jako je jeho „scree“ test a koeficienty podobnosti. Jeho výzkum vedl k rozvoji jeho teorie tekuté a krystalizované inteligence, stejně jako jeho teorie osobnostních faktorů 16. Cattell byl silným zastáncem faktorové analýzy a psychometriky. Věřil, že veškerá teorie by měla být odvozena z výzkumu, který podporuje pokračující používání empirického pozorování a objektivního testování ke studiu lidské inteligence.
Aplikace v psychologii
Analýza faktorů se používá k identifikaci „faktorů“, které vysvětlují různé výsledky různých testů. Výzkum inteligence například zjistil, že lidé, kteří získají vysoké skóre v testu verbálních schopností, jsou také dobří v jiných testech, které vyžadují verbální schopnosti. Výzkumníci to vysvětlili použitím analýzy faktorů k izolaci jednoho faktoru, často nazývaného krystalizovaná inteligence nebo verbální inteligence, který představuje míru, do jaké je někdo schopen řešit problémy zahrnující verbální dovednosti.
Analýza faktorů v psychologii je nejčastěji spojována s výzkumem inteligence. Používá se však také ke zjištění faktorů v širokém spektru oblastí, jako je osobnost, postoje, přesvědčení atd. Je spojena s psychometrikou, neboť dokáže posoudit platnost nástroje tím, že zjistí, zda nástroj skutečně měří předpokládané faktory.
Analýza faktorů v marketingu
Fázi sběru dat obvykle provádějí odborníci na marketingový výzkum. Dotazy z průzkumu požadují, aby respondent ohodnotil vzorek produktu nebo popisy konceptů produktu na základě řady atributů. Vybírá se kdekoli od pěti do dvaceti atributů. Mohly by zahrnovat věci jako: snadnost použití, hmotnost, přesnost, trvanlivost, barevnost, cena nebo velikost. Zvolené atributy se budou lišit v závislosti na zkoumaném produktu. Stejná otázka je kladena na všechny produkty ve studii. Údaje pro více produktů jsou kódovány a zadávány do statistického programu, jako jsou SPSS, SAS, Stata a SYSTAT.
Analýza izoluje základní faktory, které vysvětlují data. Analýza faktorů je technika vzájemné závislosti. Zkoumá se úplný soubor vzájemně závislých vztahů. Neexistuje žádná specifikace závislých proměnných, nezávislých proměnných nebo kauzality. Analýza faktorů předpokládá, že všechny ratingové údaje o různých atributech lze zredukovat na několik důležitých dimenzí. Toto snížení je možné, protože atributy spolu souvisí. Hodnocení udělené jednomu atributu je částečně výsledkem vlivu jiných atributů. Statistický algoritmus rozkládá hodnocení (nazývané surové skóre) na jeho různé složky a rekonstruuje dílčí skóre na skóre základních faktorů. Stupeň korelace mezi počátečním surovým skóre a konečným skóre faktorů se nazývá zatížení faktorem. Existují dva přístupy k faktorové analýze: „analýza hlavních komponent“ (bere se v úvahu celkový rozptyl v datech) a „analýza společných faktorů“ (bere se v úvahu společný rozptyl).
Všimněte si, že analýza hlavních komponent a analýza společných faktorů se liší svým konceptuálním základem. Faktory vytvořené analýzou hlavních komponent jsou konceptualizovány jako lineární kombinace proměnných, zatímco faktory vytvořené analýzou společných faktorů jsou konceptualizovány jako latentní proměnné. Výpočetně je jediným rozdílem to, že diagonála vztahové matice je v analýze společných faktorů nahrazena komunalitami (rozptyl je počítán více než jednou proměnnou). To má za následek, že skóre faktoru je neurčité, a tudíž se liší v závislosti na metodě použité k jejich výpočtu, zatímco faktory vytvořené analýzou hlavních komponent nejsou závislé na metodě výpočtu. Ačkoli došlo k vášnivým debatám o přednostech těchto dvou metod, řada předních statistiků dospěla k závěru, že v praxi existuje jen malý rozdíl (Velicer a Jackson, 1990), který dává smysl, protože výpočty jsou dosti podobné navzdory odlišným konceptuálním základům, zejména pro soubory dat, kde jsou komunality vysoké a/nebo existuje mnoho proměnných, což snižuje vliv diagonály vztahové matice na konečný výsledek (Gorsuch, 1983).
Použití hlavních komponent v sémantickém prostoru se může poněkud lišit, protože komponenty mohou pouze „předpovídat“, ale ne „mapovat“ do vektorového prostoru. Tím vzniká statistické použití hlavní komponenty, kde nejvýraznější slova nebo témata představují preferovaný základ. [ok]