Statistický model je formalizace vztahů mezi proměnnými ve formě matematických rovnic. Statistický model popisuje, jak jedna nebo více náhodných proměnných souvisí s jednou nebo více dalšími proměnnými. Model je statistický, protože proměnné nejsou deterministicky, ale stochasticky příbuzné. V matematických pojmech se o statistickém modelu často uvažuje jako o dvojici, kde je množina možných pozorování a množina možných rozdělení pravděpodobnosti na . Předpokládá se, že existuje zřetelný prvek, z něhož se generují pozorovaná data. Statistická inference nám umožňuje činit prohlášení o tom, který prvek (prvky) této množiny je pravděpodobně ten pravý.
Většina statistických testů může být popsána ve formě statistického modelu. Například Studentův t-test pro porovnání průměrů dvou skupin může být formulován tak, že zjišťuje, zda se odhadovaný parametr v modelu liší od 0. Další podobnost mezi testy a modely spočívá v tom, že se jedná o předpoklady. U většiny modelů se předpokládá, že chyba je normálně distribuována.
Statistický model je kolekce funkcí rozdělení pravděpodobnosti nebo hustoty pravděpodobnosti (souhrnně označovaných jako rozdělení pro stručnost). Parametrický model je kolekce rozdělení, z nichž každé je indexováno jedinečným konečným-dimenzionálním parametrem: , kde je parametr a je realizovatelná oblast parametrů, která je podmnožinou d-dimenzionálního euklidovského prostoru. Statistický model může být použit k popisu množiny rozdělení, z nichž se předpokládá, že je určitý datový soubor vzorkován. Pokud například předpokládáme, že data vznikají z jednorozměrného Gaussova rozdělení, pak předpokládáme Gaussův model: .
Neprametrický model je množina pravděpodobnostních distribucí s nekonečnými rozměrovými parametry a může být napsán jako . Semiparametrický model má také nekonečné rozměrové parametry, ale není hustý v prostoru distribucí. Například směs Gaussových s jedním Gaussovým v každém datovém bodě je hustá v prostoru distribucí. Formálně, pokud d je rozměr parametru a n je počet vzorků, pokud as a as , pak je model semiparametrický.
Modely lze vzájemně porovnávat. To lze provést buď v případě, že jste provedli průzkumnou analýzu dat, nebo konfirmační analýzu dat. V průzkumné analýze formulujete všechny modely, které vás napadnou, a zjistíte, který z nich nejlépe popisuje vaše data. V konfirmační analýze testujete, který z vašich modelů, které jste popsali před sběrem dat, nejlépe vyhovuje datům, nebo testujete, zda váš jediný model vyhovuje datům. V lineární regresní analýze můžete porovnávat velikost rozptylu vysvětlenou nezávislými proměnnými, R2, napříč různými modely. Obecně lze porovnávat modely, které jsou vnořeny pomocí testu poměru pravděpodobnosti. Vnořené modely jsou modely, které lze získat omezením parametru ve složitějším modelu na nulu.
Výška a věk jsou pravděpodobnostně rozloženy mezi lidi. Jsou stochasticky příbuzné; když víte, že osoba je ve věku 7 let, ovlivňuje to pravděpodobnost, že tato osoba bude vysoká 6 stop. Tento vztah byste mohli formalizovat v lineárním regresním modelu v následující podobě:
heighti = b0 + b1agei + εi, kde b0 je záchytný bod, b1 je parametr, kterým se vynásobí věk, abyste získali předpověď výšky, ε je chybový výraz a i je subjekt. To znamená, že výška začíná na nějaké hodnotě, existuje minimální výška, když se někdo narodí, a je předpovězena věkem na nějakou částku. Tato předpověď není dokonalá, protože chyba je zahrnuta v modelu. Tato chyba obsahuje rozptyl, který vyplývá z pohlaví a dalších proměnných. Když je v modelu zahrnuto pohlaví, chybový výraz se zmenší, protože budete mít lepší představu o šanci, že konkrétní 16letý je vysoký 6 stop, když víte, že tento 16letý je dívka. Model by se stal heighti = b0 + b1agei + b2sexi + εi, kde je variabilní pohlaví dichotomické. Tento model by pravděpodobně měl vyšší R2. První model je vnořen do druhého modelu: první model se získává z druhého, kdy b2 je omezeno na nulu.
Podle počtu endogenních proměnných a počtu rovnic lze modely klasifikovat jako kompletní modely (počet rovnic rovnající se počtu endogenních proměnných) a neúplné modely. Některé další statistické modely jsou obecný lineární model (omezený na průběžně závislé proměnné), zobecněný lineární model (například logistická regrese), víceúrovňový model a model strukturálních rovnic.