PCA multivariačního Gaussova rozdělení se středem (1,3) se směrodatnou odchylkou 3 zhruba ve směru (0,878, 0,478) a 1 v ortogonálním směru. Zobrazené vektory jsou vlastní vektory kovarianční matice zvětšené o druhou odmocninu odpovídajícího vlastního čísla a posunuté tak, že jejich koncovky jsou ve středu.
Analýza hlavních komponent (PCA) je matematický postup, který používá ortogonální transformaci k převedení sady pozorování případně korelovaných proměnných do sady hodnot lineárně nekorelovaných proměnných nazývaných hlavní komponenty. Počet hlavních komponent je menší nebo roven počtu původních proměnných. Tato transformace je definována tak, že první hlavní komponenta má největší možný rozptyl (tj. odpovídá co největšímu množství variability v datech) a každá následující komponenta má zase nejvyšší možný rozptyl pod omezením, že je ortogonální (tj. nekorelovaná s) předchozími komponentami. Hlavní komponenty jsou zaručeně nezávislé, pokud je sada dat společně normálně rozložena. PCA je citlivá na relativní škálování původních proměnných.
V závislosti na oblasti použití se také jmenuje diskrétní Karhunenova–Loèvova transformace (KLT) ve zpracování signálu, analýze faktorů, Eckartově–Youngově větě (Harman, 1960) nebo Schmidtově–Mirského větě v psychometrice, empirické eigenfunkční dekompozici (Sirovich, 1987), empirické analýze složek (Lorenz, 1956), kvaziharmonických režimech (Brooks et al., 1988), spektrální dekompozici v šumu a vibracích.
PCA byla vynalezena v roce 1901 Karlem Pearsonem, jako analogie k větě o hlavních osách v mechanice; později byla nezávisle vyvinuta (a pojmenována) Haroldem Hotellingem ve 30. letech 20. století. Metoda je většinou používána jako nástroj v průzkumné analýze dat a pro vytváření prediktivních modelů. PCA může být provedena pomocí rozkladu vlastní hodnoty matice kovariance (nebo korelační) nebo singulární dekompozice hodnoty datové matice, obvykle po středním vycentrování (a normalizaci nebo použití Z-skóre) datové matice pro každý atribut. Výsledky PCA jsou obvykle diskutovány z hlediska skóre součástek, někdy nazývaných skóre faktorů (transformované hodnoty proměnných odpovídající určitému datovému bodu) a zatížení (váha, kterou by měla být vynásobena každá standardizovaná původní proměnná, aby bylo získáno skóre součástek).
PCA je nejjednodušší z multivariatních analýz založených na skutečném eigenvectoru. Často lze její fungování považovat za odhalování vnitřní struktury dat způsobem, který nejlépe vysvětluje rozptyl v datech. Pokud je multivariační datový soubor vizualizován jako soubor souřadnic ve vysokodimenzionálním datovém prostoru (1 osa na proměnnou), PCA může uživateli poskytnout nízkodimenzionální obraz, „stín“ tohoto objektu při pohledu z jeho (v určitém smyslu; viz níže) nejvíce informativního hlediska. Toho se dosáhne použitím pouze několika prvních základních komponent, aby se zmenšila dimenzionalita transformovaných dat.
PCA úzce souvisí s faktorovou analýzou. Faktorová analýza obvykle zahrnuje více doménově specifických předpokladů o základní struktuře a řeší vlastní vektory mírně odlišné matice.
PCA také souvisí s kanonickou korelační analýzou (CCA). CCA definuje souřadnicové systémy, které optimálně popisují křížovou kovarianci mezi dvěma datovými soubory, zatímco PCA definuje nový ortogonální souřadnicový systém, který optimálně popisuje rozptyl v jednom datovém souboru.
PCA je matematicky definována jako ortogonální lineární transformace, která transformuje data do nového souřadnicového systému tak, že největší rozptyl libovolnou projekcí dat leží na první souřadnici (nazývané první hlavní složka), druhý největší rozptyl na druhé souřadnici a tak dále.
Představme si datovou matici X s nulovým empirickým průměrem (empirický (výběrový) průměr rozdělení byl odečten od datové sady), kde každý z řádků n představuje jiné opakování experimentu a každý sloupec p dává určitý druh data (řekněme výsledky z konkrétní sondy).
Matematicky je transformace definována množinou p-rozměrných vektorů hmotností nebo zatížení, které mapují každý řádek vektoru X na nový vektor skóre hlavní složky , daný
tak, že jednotlivé proměnné t uvažované nad souborem dat postupně dědí maximální možný rozptyl od x, přičemž každý vektor zatížení w je omezen na jednotkový vektor.
První vektor zatížení w(1) tak musí splňovat
Ekvivalentně, psaní to v maticové formě dává
Vzhledem k tomu, w (1) byl definován jako jednotkový vektor, to stejně musí také splňovat
Množství, které má být maximalizováno, může být rozpoznáno jako Rayleighův kvocient. Standardní výsledek pro symetrickou matici, jako je XTX, je, že maximální možná hodnota kvocientu je největší vlastní číslo matice, které nastane, když w je odpovídající vlastní číslo.
Při zjištění w(1) může být první složka datového vektoru x(i) uvedena jako skóre t1(i) = x(i) ⋅ w(1) v transformovaných souřadnicích, nebo jako odpovídající vektor v původních proměnných, {x(i) ⋅ w(1)} w(1).
Komponentu kth lze zjistit odečtením prvních hlavních komponent k − 1 od X:
a pak najít vektor zatížení, který extrahuje maximální rozptyl z této nové datové matice
Ukazuje se, že to dává zbývající vlastní čísla XTX, s maximálními hodnotami pro množství v závorkách danými jejich odpovídajícími vlastními čísly.
Hlavní komponenta kth datového vektoru x(i) může být tedy dána jako skóre tk(i) = x(i) ⋅ w(k) v transformovaných souřadnicích, nebo jako odpovídající vektor v prostoru původních proměnných, {x(i) ⋅ w(k)} w(k), kde w(k) je kth eigenvector XTX.
Kompletní rozklad hlavních složek X lze tedy podat jako
kde W je p-by-p matice, jejíž sloupce jsou vlastní vektory XTX
Samotné XTX může být uznáno jako úměrné empirické vzorcové kovarianční matici datového souboru X.
Vzorek kovariance Q mezi dvěma různými hlavními složkami nad datovým souborem je dán
kde k přesunu z řádku 2 na řádek 3 byla použita vlastní vlastnost w(k). Nicméně vlastní vektory w(j) a w(k) odpovídající vlastním hodnotám symetrické matice jsou ortogonální (pokud jsou vlastní hodnoty odlišné), nebo mohou být ortogonální (pokud vektory náhodou sdílejí stejnou opakovanou hodnotu). Výsledek v konečném řádku je tedy nula; mezi různými hlavními složkami v datovém souboru neexistuje kovariance vzorku.
Dalším způsobem, jak charakterizovat transformaci hlavních komponent, je proto transformace na souřadnice, které diagonalizují empirickou matici kovariance vzorku.
Ve formě matice lze zapsat empirickou kovarianční matici pro původní proměnné
Empirická kovarianční matice mezi hlavními složkami se stává
kde Λ je diagonální matice vlastních čísel λ(k) z XTX
(λ(k) se rovná součtu čtverců nad datovým souborem spojeným s každou složkou k: λ(k) = Σi tk2(i) = Σi (x(i) ⋅ w(k))2)
Věrná transformace T = X W mapuje datový vektor x(i) z původního prostoru p proměnných do nového prostoru p proměnných, které jsou nekorelované přes datový soubor. Ne všechny hlavní složky však musí být zachovány. Ponechání pouze prvních L hlavních složek, vytvořených použitím pouze prvních L zatěžovacích vektorů, dává zkrácenou transformaci
Analýza rozptylu hlavních komponent Y-STR haplotypů vypočtených z hodnot počtu opakování pro 37 Y-chromozomálních STR markerů od 354 jedinců. PCA úspěšně nalezla lineární kombinace různých markerů, které oddělují různé shluky odpovídající různým liniím Y-chromozomálního genetického původu jedinců.
Taková redukce dimenzionality může být velmi užitečným krokem pro vizualizaci a zpracování vysokodimenzionálních datových souborů, při současném zachování co největšího rozptylu v datovém souboru. Například výběr L = 2 a ponechání pouze prvních dvou hlavních komponent najde dvoudimenzionální rovinu prostřednictvím vysokodimenzionálního datového souboru, ve kterém jsou data nejvíce rozložena, takže pokud data obsahují clustery, mohou být i tyto nejvíce rozloženy, a proto jsou nejviditelnější pro vynesení do dvoudimenzionálního diagramu; zatímco pokud jsou náhodně zvoleny dva směry prostřednictvím dat (nebo dvě z původních proměnných), mohou být clustery mnohem méně rozloženy od sebe a mohou být ve skutečnosti mnohem pravděpodobnější, že se navzájem podstatně překryjí, takže jsou nerozeznatelné.
Obdobně platí, že v regresní analýze platí, že čím větší je povolený počet vysvětlujících proměnných, tím větší je šance na nadbytečné přizpůsobení modelu, což vede k závěrům, které se nedaří zobecnit na jiné datové soubory. Jedním z přístupů, zejména pokud existují silné korelace mezi různými možnými vysvětlujícími proměnnými, je jejich redukce na několik základních složek a následná regrese proti nim, metoda zvaná regrese hlavní složky.
Redukce rozměrů může být také vhodná v případě, že proměnné v datovém souboru jsou hlučné. Pokud každý sloupec datového souboru obsahuje nezávislý identicky rozložený Gaussův šum, pak sloupce T budou také obsahovat podobně identicky rozložený Gaussův šum (takové rozložení je invariantní pod vlivem matice W, kterou lze považovat za vysokodimenzionální rotaci souřadnicových os). Při větším soustředění celkového rozptylu do několika prvních hlavních složek ve srovnání se stejným rozptylem šumu je však úměrný efekt šumu menší — první složky dosahují vyššího poměru signálu a šumu. PCA tak může mít efekt soustředění velké části signálu do několika prvních hlavních složek, které mohou být užitečně zachyceny redukcí rozměrů; zatímco pozdějším hlavním složkám může dominovat šum, a tak se jich zbaví bez velkých ztrát.
Singulární rozklad hodnot
Transformace hlavních komponent může být také spojena s další maticovou faktorizací, singulární dekompozicí hodnoty (SVD) X,
Zde Σ je p-by-p diagonální matice kladných čísel σ(k), nazývaná singulární hodnoty X; U je n-by-p matice, jejíž sloupce jsou ortogonální jednotkové vektory o délce n, nazývané levé singulární vektory X; a W je p-by-p, jehož sloupce jsou ortogonální jednotkové vektory o délce p a nazývané pravé singulární vektory X.
Z hlediska této faktorizace lze zapsat matici XTX
Srovnání s faktorizací vlastních vektorů XTX ukazuje, že pravé singulární vektory W of X jsou ekvivalentní vlastním vektorům XTX, zatímco singulární hodnoty σ(k) of X jsou rovny druhé odmocnině vlastních čísel λ(k) z XTX.
Pomocí singulární hodnoty rozkladu skóre matice T lze zapsat
takže každý sloupec T je dán jedním z levých singulárních vektorů X vynásobených odpovídající singulární hodnotou.
Existují efektivní algoritmy pro výpočet SVD X bez nutnosti tvořit matici XTX, takže výpočet SVD je nyní standardním způsobem pro výpočet analýzy hlavních komponent z datové matice, pokud není vyžadována pouze hrstka komponent.
Stejně jako u eigendecomposition lze zkrácenou n-by-L matici skóre TL získat tak, že vezmeme v úvahu pouze první L největší singulární hodnoty a jejich singulární vektory:
Zkrácení matice M nebo T pomocí zkráceného singulárního rozkladu hodnot tímto způsobem vytváří zkrácenou matici, která je nejbližší možnou maticí hodnosti L k původní matici, ve smyslu rozdílu mezi oběma, které mají nejmenší možnou Frobeniovu normu, výsledek známý jako Eckartova–Youngova věta [1936].
Vzhledem k množině bodů v euklidovském prostoru odpovídá první hlavní složka přímce, která prochází multidimenzionálním průměrem a minimalizuje součet čtverců vzdáleností bodů od přímky. Druhá hlavní složka odpovídá stejnému konceptu poté, co byla od bodů odečtena veškerá korelace s první hlavní složkou. Singulární hodnoty (v Σ) jsou odmocniny vlastních čísel matice XTX. Každé vlastní číslo je úměrné části „rozptylu“ (přesněji součtu čtvercových vzdáleností bodů od jejich multidimenzionálního průměru), která koreluje s každým vlastním číslem. Součet všech vlastních čísel se rovná součtu čtvercových vzdáleností bodů od jejich multidimenzionálního průměru. PCA v podstatě otáčí množinu bodů kolem jejich průměru, aby se vyrovnaly s hlavními složkami. Tím se co největší část rozptylu (pomocí ortogonální transformace) přesune do několika prvních dimenzí. Hodnoty ve zbývajících dimenzích proto bývají malé a mohou být při minimální ztrátě informací vypuštěny (viz níže). PCA se tímto způsobem často používá pro redukci dimenzionality. PCA se odlišuje tím, že je optimální ortogonální transformací pro udržení podprostoru, který má největší „rozptyl“ (jak je definováno výše). Tato výhoda však přichází za cenu větších výpočetních požadavků, pokud se například a případně porovná s diskrétní kosinovou transformací, a zejména s DCT-II, která je jednoduše známá jako „DCT“. Nelineární techniky redukce dimenzionality bývají výpočetně náročnější než PCA.
Průměrné odečítání (také známé jako „průměrné vycentrování“) je nezbytné pro provádění PCA, aby se zajistilo, že první hlavní složka popisuje směr maximálního rozptylu. Pokud se průměrné odečítání neprovádí, může místo toho první hlavní složka více či méně odpovídat průměru dat. Pro nalezení základu, který minimalizuje střední kvadratickou chybu aproximace dat, je potřeba průměr nula.
PCA je ekvivalentem empirických ortogonálních funkcí (EOF), což je název používaný v meteorologii.
Neuronová síť autoenkodéru s lineární skrytou vrstvou je podobná PCA. Při konvergenci budou váhové vektory neuronů K ve skryté vrstvě tvořit základ pro prostor rozložený prvními hlavními složkami K. Na rozdíl od PCA nebude tato technika nutně produkovat ortogonální vektory.
PCA je populární primární technika v rozpoznávání vzorů. Není však optimalizována pro oddělitelnost tříd. Alternativou je lineární diskriminační analýza, která toto zohledňuje.
Tabulka symbolů a zkratek
Vlastnosti a omezení PCA
Jak je uvedeno výše, výsledky PCA závisí na škálování proměnných.
Použitelnost PCA je omezena určitými předpoklady, které byly učiněny při jejím odvozování.
PCA a teorie informací
Tvrzení, že PCA používaná pro redukci dimenzionality zachovává většinu informací z údajů, je zavádějící. Bez jakéhokoli předpokladu o signálovém modelu totiž PCA nemůže pomoci snížit množství informací ztracených během redukce dimenzionality, kde byly informace měřeny pomocí Shannonovy entropie.
Za předpokladu, že
tj. že datový vektor je součtem požadovaného informačně-nosného signálu a šumového signálu lze ukázat, že PCA může být optimální pro redukci dimenzionality i z informačně-teoretického hlediska.
Zejména Linsker ukázalo, že pokud je Gaussova a je Gaussova šumu s kovariance matice úměrná matice identity, PCA maximalizuje vzájemnou informaci mezi požadovanou informací a dimenzionality snížený výstup .
Pokud je šum stále Gaussovský a má kovarianční matici úměrnou matici identity (tj. složky vektoru jsou iid), ale informační signál je ne-Gaussovský (což je běžný scénář), PCA alespoň minimalizuje horní hranici informační ztráty, která je definována jako
Optimalita PCA je také zachována, pokud je šum iid a alespoň více Gaussovský (z hlediska Kullbackovy–Leiblerovy divergence) než informační signál . Obecně platí, že i když výše uvedený model signálu platí, PCA ztrácí svou informačně-teoretickou optimálnost, jakmile se šum stane závislým.
Výpočet PCA pomocí metody kovariance
Cílem je transformovat danou datovou sadu X dimenze p na alternativní datovou sadu Y menší dimenze L. Ekvivalentně se snažíme najít matici Y, kde Y je Karhunenova–Loèvova transformace (KLT) matice X:
Předpokládejme, že máte data obsahující sadu pozorování p proměnných a chcete redukovat data tak, aby každé pozorování mohlo být popsáno pouze L proměnnými, L < p. Předpokládejme dále, že data jsou uspořádána jako sada n datových vektorů, z nichž každý představuje jedno skupinové pozorování p proměnných.
Vypočítejte empirický průměr
Vypočítejte odchylky od průměru
Střední odčítání je nedílnou součástí řešení směrem k nalezení základní komponentové báze, která minimalizuje střední kvadratickou chybu aproximace dat. Proto postupujeme tak, že data vycentrujeme následovně:
Najděte kovarianční matici
Najít vlastní vektory a vlastní hodnoty kovarianční matice
Přeuspořádat vlastní vektory a vlastní vektory
Vypočítejte kumulativní energetický obsah pro každé vlastní těleso
Vyberte podmnožinu vlastních vektorů jako bázové vektory
Promítnout z-skóre dat na nový základ
Odvození PCA metodou kovariance
Nechť X je d-dimenzionální náhodný vektor vyjádřený jako sloupcový vektor. Bez ztráty obecnosti předpokládejme, že X má nulový průměr.
Chceme najít pravoúhlou transformační matici P tak, aby PX mělo diagonální kovariantní matici (tj. PX je náhodný vektor se všemi jeho odlišnými složkami párově nekorelovanými).
Rychlý výpočet za předpokladu, že byly jednotkové výnosy:
Proto platí tehdy a jen tehdy, pokud byly úhlopříčka o .
To je velmi konstruktivní, protože var(X) je zaručena nezáporná definitní matice a je tedy zaručena diagonalizace nějakou unitární maticí.
V praktických implementacích, zejména s vysokorozměrnými daty (velké p), se kovarianční metoda používá jen zřídka, protože není efektivní. Jeden způsob, jak efektivně spočítat první hlavní komponentu, je znázorněn v následujícím pseudokódu, pro datovou matici X s nulovým průměrem, aniž by kdy byla vypočtena její kovarianční matice
Tento algoritmus je jednoduše efektivní způsob výpočtu XTX r, normalizace a umístění výsledku zpět do r (power iterace). Vyhýbá se operacím np2 při výpočtu kovarianční matice.
r se obvykle dostane blízko k první hlavní komponentě X v rámci malého počtu iterací, c. (Velikost s bude větší po každé iteraci. Konvergence může být detekována, když se zvýší o částku příliš malou pro přesnost stroje.)
Následné hlavní komponenty lze vypočítat odečtením komponenty r od X (viz Gram-Schmidt) a následným opakováním tohoto algoritmu najít další hlavní komponentu. Tento jednoduchý přístup však není numericky stabilní, pokud je požadováno více než malé množství hlavních komponent, protože nepřesnosti ve výpočtech aditivně ovlivní odhady následných hlavních komponent. Pokročilejší metody staví na této základní myšlence, stejně jako u úzce souvisejícího Lanczosova algoritmu.
Jedním ze způsobů, jak vypočítat vlastní hodnotu, která odpovídá každé hlavní komponentě, je změřit rozdíl střední kvadratické vzdálenosti mezi řádky a těžištěm před a po odečtení hlavní komponenty. Vlastní hodnota, která odpovídá komponentě, která byla odstraněna, se rovná tomuto rozdílu.
U velmi vysokodimenzionálních datových souborů, jako jsou ty generované v *omických vědách (např. genomika, metabolomika), je obvykle nutné spočítat jen několik prvních PC. Nelineární iterační algoritmus parciálních nejmenších čtverců (NIPALS) počítá t1 a w1T z X. Vnější součin, t1w1T pak lze odečíst od X, přičemž opouštíme zbytkovou matici E1. Tu pak lze použít k výpočtu následných PC. To má za následek dramatické zkrácení výpočetního času od doby, kdy se zabrání výpočtu kovarianční matice.
Pro velké datové matice nebo matice, které mají vysoký stupeň kolinearity sloupců, však NIPALS trpí ztrátou ortogonality kvůli omezením strojové přesnosti akumulovaným v každém iteračním kroku. Gram-Schmidtův (GS) re-ortogonální algoritmus je aplikován na skóre i zatížení v každém iteračním kroku, aby se eliminovala tato ztráta ortogonality.
Online/sekvenční odhad
V situaci „online“ nebo „streamování“ s daty přicházejícími kus po kuse, spíše než aby byla uložena v jedné dávce, je užitečné provést odhad projekce PCA, kterou lze postupně aktualizovat. To lze provést efektivně, ale vyžaduje to různé algoritmy.
Vztah mezi PCA a K-means clusteringem
Nedávno bylo prokázáno (2001,2004)
že uvolněné řešení clusteringu K-means, specifikované indikátory clusteru, je dáno hlavními komponentami PCA a subprostor PCA rozložený hlavními směry je identický se subprostorem centroidu clusteru specifikovaným maticí rozptylu mezi třídami. PCA tak automaticky promítá do subprostoru, kde leží globální řešení clusteringu K-means, a tím usnadňuje clustering K-means k nalezení téměř optimálních řešení.
Korespondenční analýza (CA)
byla vyvinuta Jeanem-Paulem Benzécrim
a je koncepčně podobná PCA, ale škáluje data (která by měla být nezáporná) tak, aby se s řádky a sloupci zacházelo rovnocenně. Tradičně se aplikuje na tabulky nepředvídaných událostí.
CA rozkládá statistiku chí-kvadrát přidruženou k této tabulce na ortogonální faktory.
Protože CA je popisná technika, lze ji aplikovat na tabulky, pro které je statistika chí-kvadrát vhodná nebo ne.
K dispozici je několik variant CA včetně analýzy rozptýlené korespondence a kanonické korespondenční analýzy. Jedním ze zvláštních rozšíření je vícenásobná korespondenční analýza, která může být považována za protějšek hlavní komponentní analýzy pro kategorická data.
Lineární PCA versus nelineární Principal Manifoldy pro vizualizaci dat z mikročipů karcinomu prsu: a) Konfigurace uzlů a 2D Principal Surface v lineárním 3D PCA potrubí. Datový soubor je zakřivený a nelze jej odpovídajícím způsobem zmapovat v 2D základní rovině; b) distribuce ve vnitřních 2D nelineárních hlavních povrchových souřadnicích (ELMap2D) spolu s odhadem hustoty bodů; c) Stejné jako b), ale pro lineární 2D PCA potrubí (PCA2D). „Bazální“ podtyp karcinomu prsu je adekvátnějším způsobem vizualizován s ELMap2D a některé rysy distribuce jsou lépe vyřešeny ve srovnání s PCA2D. Hlavní potrubí se vyrábí algoritmem elastických map. Data jsou k dispozici pro veřejnou soutěž. Software je k dispozici pro bezplatné nekomerční použití.
Multilineární generalizace
V multilineárním subprostorovém učení je PCA zobecněna na multilineární PCA (MPCA), která extrahuje vlastnosti přímo z tenzorových reprezentací. MPCA je řešena provedením PCA v každém režimu tenzoru iterativně. MPCA byla aplikována na rozpoznávání obličeje, rozpoznávání chůze atd. MPCA je dále rozšířena na nekorelovanou MPCA, nezápornou MPCA a robustní MPCA.
Analýza N-way hlavních komponent může být provedena pomocí modelů jako je Tuckerova dekompozice, PARAFAC, analýza více faktorů, analýza koinercie, STATIS a DISTATIS.
Zatímco PCA zjišťuje matematicky optimální metodu (jako při minimalizaci čtvercové chyby), je citlivá na odlehlé hodnoty v datech, které produkují velké chyby, kterým se PCA snaží vyhnout. Proto je běžnou praxí odstraňovat odlehlé hodnoty před výpočtem PCA. Nicméně v některých kontextech může být odlehlé hodnoty obtížné identifikovat. Například v algoritmech pro dolování dat, jako je korelační shlukování, není předem známo přiřazování bodů ke shlukům a odlehlým hodnotám. Nedávno navržená generalizace PCA založená na vážené PCA zvyšuje robustnost přiřazováním různých vah datovým objektům na základě jejich odhadované relevantnosti.
Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka
Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu
Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti
Normal (zvonová křivka) – Poisson – Bernoulli
Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)
Lineární regrese – Nelineární regrese – Logistická regrese