Ve statistice je cenzorovaná proměnná proměnná, která není plně měřena nebo pozorována z důvodu dolní hranice nebo stropu, který představuje hranici rozsahu, za níž nelze údaje kvantifikovat.
Předpokládejme například, že se provádí studie, která má změřit vliv léku na úmrtnost. V takové studii může být známo, že věk jedince při úmrtí je nejméně 75 let. Taková situace by mohla nastat, pokud by jedinec odstoupil ze studie ve věku 75 let nebo pokud by jedinec v současné době žil ve věku 75 let.
K cenzurování dochází také tehdy, když se hodnota vyskytuje mimo rozsah měřicího přístroje. Například koupelnová váha může měřit pouze do 300 liber. Pokud je na váze zvážena osoba vážící 350 liber, pozorovatel se dozví pouze to, že její hmotnost je nejméně 300 liber.
Cenzura by neměla být zaměňována s příbuzným pojmem zkracování. Při cenzorování je výsledkem pozorování buď znalost přesné hodnoty, která platí, nebo znalost, že hodnota leží v intervalu. Při zkracování pozorování nikdy nevede k hodnotám mimo daný interval – hodnoty v populaci mimo interval nejsou nikdy pozorovány, nebo pokud jsou pozorovány, nejsou nikdy zaznamenány. Všimněte si, že ve statistice není zkracování totéž co zaokrouhlování.
Problém cenzorovaných dat, kdy je pozorovaná hodnota nějaké proměnné částečně známa, souvisí s problémem chybějících dat, kdy je pozorovaná hodnota nějaké proměnné neznámá.
Intervalové cenzorování může nastat, pokud sledování hodnoty vyžaduje následné kontroly nebo inspekce. Speciálními případy intervalového cenzorování jsou levé a pravé cenzorování, přičemž začátek intervalu je v nule, resp. konec v nekonečnu.
Údaje s levostranným cenzorováním se vyskytují například v analytických údajích o životním prostředí, kde mohou být ve vzorku životního prostředí (např. podzemní vody, půdy) skutečně přítomny stopové koncentrace chemických látek, ale jsou „nedetekovatelné“, tj. pod mezí detekce analytického přístroje nebo laboratorní metody. Metody odhadu pro použití levostranně cenzurovaných údajů se liší a ne všechny metody odhadu mohou být použitelné nebo nejspolehlivější pro všechny soubory údajů.
Jedním z prvních pokusů o analýzu statistického problému zahrnujícího cenzurovaná data byla analýza údajů o nemocnosti a úmrtnosti na neštovice, kterou provedl Daniel Bernoulli v roce 1766, aby prokázal účinnost očkování.
Pro zpracování cenzurovaných dat lze použít speciální techniky.
Průměr (aritmetický, geometrický) – Medián – Modus – Výkon – Rozptyl – Směrodatná odchylka
Testování hypotéz – Významnost – Nulová hypotéza / Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu
Funkce přežití – Kaplan-Meierův test – Logrankův test – Míra selhání – Modely proporcionálních rizik
Normální (zvonová křivka) – Poissonova – Bernoulliho
Zkreslující proměnná – Pearsonův korelační koeficient součinu a momentu – Korelace pořadí (Spearmanův korelační koeficient pořadí, Kendallův korelační koeficient pořadí tau)
Lineární regrese – Nelineární regrese – Logistická regrese