Hranice spolehlivosti (statistika)

Ve statistice je interval spolehlivosti (CI) nebo hranice spolehlivosti intervalový odhad populačního parametru. Namísto odhadu parametru pomocí jedné hodnoty je uveden interval, který pravděpodobně zahrnuje daný parametr. Intervaly spolehlivosti se tedy používají k označení spolehlivosti odhadu. To, s jakou pravděpodobností interval obsahuje parametr, je určeno hladinou spolehlivosti nebo koeficientem spolehlivosti. Zvýšením požadované úrovně spolehlivosti se interval spolehlivosti rozšíří.

CI lze například použít k popisu spolehlivosti výsledků průzkumu. V průzkumu volebních záměrů může být výsledek takový, že 40 % respondentů hodlá volit určitou stranu. Interval spolehlivosti 95 % pro podíl v celé populaci, který měl v den průzkumu stejný záměr, může být 36 % až 44 %. Za stejných podmínek je výsledek průzkumu s malým intervalem spolehlivosti spolehlivější než výsledek s velkým intervalem spolehlivosti a jednou z hlavních věcí, které tuto šířku v případě populačních průzkumů kontrolují, je velikost dotazovaného vzorku. Intervaly spolehlivosti a intervalové odhady mají obecněji uplatnění v celé řadě kvantitativních studií.

Pokud je statistika prezentována s intervalem spolehlivosti a tvrdí se, že je statisticky významná, základní test vedoucí k tomuto tvrzení byl proveden na hladině významnosti 100 % minus hladina spolehlivosti intervalu. Pokud tento test vedl k chybě typu I, statistika a její interval spolehlivosti nebudou mít žádný vztah k základnímu parametru.

V tomto sloupcovém grafu označují horní konce sloupců střední hodnoty pozorování a červené úsečky představují intervaly spolehlivosti, které je obklopují. Rozdíl mezi oběma populacemi vlevo je významný. Častým omylem je však předpokládat, že dva parametry, jejichž 95% intervaly spolehlivosti se nepřekrývají, se významně liší na 5% hladině.

Pro daný podíl p (kde p je hladina spolehlivosti) je interval spolehlivosti pro populační parametr interval, který se vypočítá z náhodného vzorku základní populace tak, že pokud by se výběr opakoval mnohokrát a interval spolehlivosti by se přepočítal z každého vzorku podle stejné metody, podíl p intervalů spolehlivosti by obsahoval daný populační parametr. V neobvyklých případech může soubor spolehlivosti sestávat ze souboru několika samostatných intervalů, které mohou zahrnovat polo-nekonečné intervaly, a je možné, že výsledkem výpočtu intervalu spolehlivosti může být soubor všech hodnot od minus nekonečna do plus nekonečna.

Intervaly spolehlivosti hrají ve frekvenční statistice podobnou roli jako interval spolehlivosti v bayesovské statistice. Intervaly spolehlivosti a intervaly věrohodnosti se však liší nejen matematicky, ale mají i radikálně odlišnou interpretaci.

V aplikační praxi se intervaly spolehlivosti obvykle uvádějí na 95% hladině spolehlivosti. Při grafickém znázornění však mohou intervaly spolehlivosti uvádět několik úrovní spolehlivosti, například 50 %, 95 % a 99 %.

Intervaly spolehlivosti jako náhodné intervaly

Intervaly spolehlivosti se konstruují na základě daného souboru dat: x označuje soubor pozorování v souboru dat a X se používá při úvahách o výsledcích, které mohly být pozorovány ze stejné populace, přičemž X se považuje za náhodnou proměnnou, jejíž pozorovaný výsledek je X = x. Interval spolehlivosti je určen dvojicí funkcí u(.) a v(.) a interval spolehlivosti pro daný soubor dat je definován jako interval (u(x), v(x)). K dokončení definice intervalu spolehlivosti je třeba jasně chápat veličinu, pro kterou CI poskytuje intervalový odhad. Předpokládejme, že touto veličinou je w. Vlastnost pravidel u(.) a v(.), díky níž se interval (u(x),v(x)) nejvíce blíží tomu, jaký by byl interval spolehlivosti pro w, souvisí s vlastnostmi množiny náhodných intervalů daných (u(X),v(X)): to znamená, že s koncovými body zachází jako s náhodnými veličinami. Tato vlastnost je pravděpodobnost pokrytí neboli pravděpodobnost c, že náhodný interval obsahuje w,

Zde jsou koncové body U = u(X) a V = v(X) statistiky (tj. pozorovatelné náhodné veličiny), které jsou odvozeny z hodnot v souboru dat. Náhodný interval je (U, V).

Intervaly spolehlivosti pro odvozování

Aby výše uvedený postup poskytoval použitelný prostředek ke statistickému odvozování, je zapotřebí ještě něco dalšího: vazba mezi odhadovanou veličinou a pravděpodobnostním rozdělením výsledku X. Předpokládejme, že toto pravděpodobnostní rozdělení je charakterizováno nepozorovatelným parametrem θ, který je odhadovanou veličinou, a dalšími nepozorovatelnými parametry φ, které nejsou předmětem bezprostředního zájmu. Tyto další veličiny φ, o které není bezprostřední zájem, se nazývají rušivé parametry, protože statistická teorie musí ještě najít nějaký způsob, jak se s nimi vypořádat.

Definice intervalu spolehlivosti pro θ pro libovolné číslo α mezi 0 a 1 je interval

a u(X) a v(X) jsou pozorovatelné náhodné veličiny, tj. k tomu, abychom znali hodnoty u(X) a v(X), nemusíme znát hodnoty nepozorovatelných veličin θ, φ.

Číslo 1 – α (někdy uváděné jako procento 100%-(1 – α)) se nazývá hladina spolehlivosti nebo koeficient spolehlivosti. Většina standardních knih přejímá tuto konvenci, kde α bude malé číslo. Zde se používá k označení pravděpodobnosti, kdy náhodná veličina X má rozdělení charakterizované . Důležitou součástí této specifikace je, že náhodný interval (U, V) pokrývá neznámou hodnotu θ s vysokou pravděpodobností bez ohledu na to, jaká je skutečná hodnota θ.

Všimněte si, že se zde nemusí jednat o explicitně danou parametrizovanou rodinu rozdělení, i když se tak často děje. Stejně jako náhodná veličina X pomyslně odpovídá jiným možným realizacím x ze stejné populace nebo ze stejné verze reality, parametry naznačují, že musíme uvažovat jiné verze reality, v nichž by rozdělení X mohlo mít jiné vlastnosti.

Intervaly pro náhodné výsledky

Intervaly spolehlivosti lze definovat jak pro náhodné veličiny, tak pro fixní veličiny, jak je uvedeno výše. Viz interval předpovědi. Za tímto účelem uvažujme další jednohodnotovou náhodnou veličinu Y, která může, ale nemusí být statisticky závislá na X. Pak pravidlo pro konstrukci intervalu(u(x), v(x)) poskytuje interval spolehlivosti pro dosud nepozorovanou hodnotu y veličiny Y, jestliže

Zde se používá pro označení pravděpodobnosti nad společným rozdělením náhodných veličin (X, Y), pokud je toto rozdělení charakterizováno parametry .

Přibližné intervaly spolehlivosti

Pro nestandardní aplikace někdy není možné najít pravidla pro konstrukci intervalů spolehlivosti, která by měla přesně požadované vlastnosti. Přesto lze najít prakticky použitelné intervaly. Pravděpodobnost pokrytí pro náhodný interval je definována vztahem

a pravidlo pro konstrukci intervalu může být přijato jako interval spolehlivosti, jestliže

na přijatelnou úroveň aproximace.

Srovnání s bayesovskými intervalovými odhady

Bayesovský intervalový odhad se nazývá věrohodný interval. Při použití stejné notace jako výše je definice věrohodného intervalu pro neznámou pravdivou hodnotu θ pro dané α následující,

Θ je zde použito pro zdůraznění, že neznámá hodnota of je považována za náhodnou veličinu. Definice obou typů intervalů lze porovnat následovně.

Všimněte si, že výše uvedené zacházení s rušivými parametry se v diskusích o porovnávání intervalů spolehlivosti a věrohodnosti často opomíjí, ale v obou případech se výrazně liší.

V některých jednoduchých standardních případech mohou být intervaly vytvořené jako intervaly spolehlivosti a věrohodnosti ze stejného souboru dat totožné. Jsou vždy velmi odlišné, pokud je do bayesovské analýzy zahrnuta středně silná nebo silná předběžná informace.

Při použití poměrně standardních statistických postupů budou často existovat poměrně standardní způsoby konstrukce intervalů spolehlivosti. Tyto postupy byly navrženy tak, aby splňovaly určité žádoucí vlastnosti, které platí za předpokladu, že předpoklady, na nichž je postup založen, jsou pravdivé. Při nestandardních aplikacích by se hledaly stejné žádoucí vlastnosti. Tyto žádoucí vlastnosti lze popsat jako: platnost, optimálnost a invariance. Z nich je nejdůležitější „platnost“, těsně následovaná „optimálností“. „Invarianci“ lze považovat za vlastnost metody odvození intervalu spolehlivosti spíše než pravidla pro konstrukci intervalu.

Pro nestandardní aplikace existuje několik způsobů, jak odvodit pravidlo pro konstrukci intervalů spolehlivosti. Zavedená pravidla pro standardní postupy lze odůvodnit nebo vysvětlit několika z těchto cest. Obvykle je pravidlo pro konstrukci intervalů spolehlivosti úzce spjato s konkrétním způsobem zjištění bodového odhadu uvažované veličiny.

Stroj plní kelímky margarínem a má být nastaven tak, aby se průměrný obsah kelímků blížil 250 gramům margarínu. Samozřejmě není možné naplnit každý kelímek přesně 250 gramy margarínu. Proto lze hmotnost náplně považovat za náhodnou veličinu X. Rozdělení X se zde předpokládá jako normální rozdělení s neznámým očekáváním μ a (pro zjednodušení) známou směrodatnou odchylkou σ = 2,5 gramu. Pro ověření, zda je stroj vhodně seřízen, se náhodně vybere vzorek n = 25 kelímků margarínu a kelímky se zváží. Hmotnosti margarínu jsou , náhodný vzorek z X.

Abychom si udělali představu o očekávané hodnotě μ, stačí uvést její odhad. Vhodným odhadem je výběrový průměr:

Ve vzorku jsou uvedeny skutečné hmotnosti , s průměrem:

Pokud bychom vzali další vzorek 25 šálků, mohli bychom snadno očekávat hodnoty jako 250,4 nebo 251,1 gramů. Průměrná hodnota vzorku 280 gramů by však byla velmi vzácná, pokud by se průměrný obsah šálků skutečně blížil 250 g. Kolem pozorované hodnoty 250,2 výběrového průměru existuje celý interval, v němž, pokud by celopopulační průměr skutečně nabýval hodnoty v tomto rozmezí, by pozorované údaje nebyly považovány za nijak zvlášť neobvyklé. Takový interval se nazývá interval spolehlivosti pro parametr μ. Jak takový interval vypočítáme? Koncové body intervalu je třeba vypočítat ze vzorku, takže se jedná o statistiku, funkci vzorku, a tedy o náhodné veličiny samotné.

V našem případě můžeme koncové body určit tak, že uvažujeme, že výběrový průměr z normálně rozděleného vzorku je také normálně rozdělený, se stejným očekáváním μ, ale se standardní chybou (gramy). Standardizací získáme náhodnou veličinu

Výše uvedený výraz standardizuje vaši proměnnou. To vám umožní provést tuto analýzu a vypočítat 95% interval spolehlivosti. μ je nějaké budoucí měření, sigma je vaše směrodatná odchylka, N je velikost vašeho vzorku (v tomto případě 25) a X bar je váš výběrový průměr (v tomto případě 250,2). Abychom mohli vypočítat interval spolehlivosti, musíme nejprve zvolit proměnnou α. Protože nás zajímá 95% interval spolehlivosti, nastavíme α = 0,05. Lze tedy najít čísla -z a z, nezávislá na μ, kde Z leží mezi nimi s pravděpodobností 1 – α. Vezmeme 1 – α = 0,95. Máme tedy:

Číslo z vyplývá z kumulativní distribuční funkce, která nám dává hodnotu z, a je platné, protože jsme standardizovali naše velké Z. (Viz také probit). Proto:

To lze interpretovat takto: s pravděpodobností 0,95 ku jedné zvolíme interval spolehlivosti, ve kterém se setkáme s parametrem μ mezi stochastickými koncovými body, ale to neznamená, že možnost setkání s parametrem μ v intervalu spolehlivosti je 95 % :

Svislé úsečky představují 50 realizací intervalu spolehlivosti pro μ.

Tento interval má pevné koncové body, přičemž μ se může nacházet mezi nimi (nebo také ne). Pravděpodobnost takové události neexistuje. Nemůžeme říci: „s pravděpodobností (1 – α) leží parametr μ v intervalu spolehlivosti“. Víme pouze, že opakováním ve 100(1 – α) % případů bude μ ležet ve vypočteném intervalu. Ve 100α % případů však nikoliv. A bohužel nevíme, ve kterých z případů se tak stane. Proto říkáme: „s hladinou spolehlivosti 100(1 – α) % μ leží v intervalu spolehlivosti“.

Obrázek vpravo ukazuje 50 realizací intervalu spolehlivosti pro daný populační průměr μ. Pokud náhodně vybereme jednu realizaci, je pravděpodobnost 95 %, že jsme nakonec vybrali interval, který obsahuje parametr; můžeme však mít smůlu a vybrat špatný interval. To se nikdy nedozvíme; zůstáváme u našeho intervalu.

Předpokládejme, že X1, …, Xn jsou nezávislé vzorky z normálně rozdělené populace se střední hodnotou μ a rozptylem σ2. Nechť

má Studentovo t-rozdělení s n – 1 stupni volnosti. Všimněte si, že rozdělení T nezávisí na hodnotách nepozorovatelných parametrů μ a σ2, tj. jedná se o klíčovou veličinu. Je-li c 95. percentil tohoto rozdělení, pak platí, že

(Poznámka: „95.“ a „0,9.“ jsou v předchozích výrazech správně. Existuje 5% pravděpodobnost, že T bude menší než -c, a 5% pravděpodobnost, že bude větší než +c. Pravděpodobnost, že T bude mezi -c a +c, je tedy 90 %.)

a máme teoretický (stochastický) 90% interval spolehlivosti pro μ.

Po pozorování vzorku zjistíme hodnoty pro a s pro S, ze kterých vypočítáme interval spolehlivosti.

interval s pevnými čísly jako koncovými body, o kterém již nemůžeme říci, že s určitou pravděpodobností obsahuje parametr μ. Buď μ v tomto intervalu je, nebo není.

Vztah k testování hypotéz

Ačkoli se formulace pojmů intervalů spolehlivosti a testování statistických hypotéz liší, v některých ohledech spolu souvisejí a do jisté míry se doplňují. Ačkoli ne všechny intervaly spolehlivosti jsou konstruovány tímto způsobem, jedním z obecných přístupů ke konstrukci intervalů spolehlivosti je definovat 100(1-α)% interval spolehlivosti, který se skládá ze všech hodnot θ0, pro které není test hypotézy θ=θ0 zamítnut na hladině významnosti 100α %. Takový přístup nemusí být vždy k dispozici, protože předpokládá praktickou dostupnost vhodného testu významnosti. Veškeré předpoklady požadované pro test významnosti by se samozřejmě přenesly i na intervaly spolehlivosti.

Mohlo by být vhodné učinit obecnou shodu, že hodnoty parametrů uvnitř intervalu spolehlivosti jsou ekvivalentní hodnotám, které by nebyly zamítnuty testem hypotézy, ale bylo by to nebezpečné. V mnoha případech jsou uváděné intervaly spolehlivosti pouze přibližně platné, třeba odvozené z „plus nebo minus dvojnásobku standardní chyby“, a důsledky toho pro údajně odpovídající testy hypotéz jsou obvykle neznámé.

Význam a výklad

Uživatelé frekvenčních metod mohou interval spolehlivosti interpretovat různě.

V každém z výše uvedených případů platí následující. Pokud skutečná hodnota parametru leží po výpočtu mimo 90% interval spolehlivosti, pak došlo k události, u níž byla pravděpodobnost, že nastane náhodně, 10 % (nebo méně).

Uživatelé bayesovských metod, kteří by vytvářeli intervalový odhad, by naopak chtěli říci: „Moje míra přesvědčení, že parametr je skutečně v tomto intervalu, je 90 %“ . Viz Důvěryhodný interval.
Spory o tyto otázky nejsou spory o řešení matematických problémů. Jsou to spíše neshody ohledně způsobů, jakými se má matematika používat.

Význam pojmu důvěra

Existuje rozdíl ve významu mezi běžným používáním slova „confidence“ a jeho statistickým použitím, což je pro laiky často matoucí. V běžném užití se tvrzení o 95% důvěře v něco obvykle považuje za označení praktické jistoty. Ve statistice tvrzení o 95% jistotě jednoduše znamená, že výzkumník viděl něco, co se stane jen jednou z dvaceti případů nebo méně. Pokud by někdo hodil dvěma kostkami a dostal by dvakrát šestku, málokdo by to prohlásil za důkaz, že kostky jsou pevné, ačkoli statisticky vzato by mohl mít 97% jistotu, že tomu tak je. Stejně tak zjištění statistické souvislosti s 95% spolehlivostí není důkazem, a dokonce ani velmi dobrým důkazem, že mezi spojenými věcmi existuje nějaká skutečná souvislost.

Pokud studie zahrnuje více statistických testů, někteří laici předpokládají, že důvěra spojená s jednotlivými testy je důvěrou, kterou bychom měli mít ve výsledky samotné studie. Ve skutečnosti je třeba výsledky všech statistických testů provedených během studie posuzovat jako celek, aby bylo možné určit, jakou důvěru lze mít v pozitivní souvislosti, které studie přináší. Pokud byla provedena studie zahrnující 40 statistických testů s 95% spolehlivostí, lze očekávat, že přibližně dva z testů budou mít falešně pozitivní výsledky. Pokud jsou nalezeny 3 odkazy, důvěra spojená s těmito odkazy „jako výsledek průzkumu“ je ve skutečnosti asi 32 %; to je to, co by se mělo očekávat ve dvou třetinách případů.

Intervaly spolehlivosti při měření

Tento článek je označen od dubna 2008.

Výsledky měření jsou často doprovázeny intervaly spolehlivosti. Předpokládejme například, že váha dává skutečnou hmotnost objektu plus normálně rozdělenou náhodnou chybu se střední hodnotou 0 a známou směrodatnou odchylkou σ. Pokud na této váze zvážíme 100 objektů o známé hmotnosti a uvedeme hodnoty ±σ, pak můžeme očekávat, že přibližně 68 % uváděných intervalů zahrnuje skutečnou hmotnost.

Pokud chceme uvádět hodnoty s menší hodnotou směrodatné chyby, pak měření n-krát zopakujeme a výsledky zprůměrujeme. Pak je interval spolehlivosti 68,2 % . Například stokrát opakované měření zmenší interval spolehlivosti na 1/10 původní šířky.

Všimněte si, že pokud uvádíme 68,2% interval spolehlivosti (obvykle označovaný jako standardní chyba) jako v ± σ, neznamená to, že skutečná hmotnost má 68,2% šanci, že se bude nacházet v uváděném rozmezí. Ve skutečnosti je skutečná hmotnost buď v tomto rozmezí, nebo ne. Jak lze říci, že hodnota mimo rozsah má nějakou šanci být v rozsahu? Naše tvrzení spíše znamená, že 68,2 % rozsahů, které uvádíme pomocí ± σ, pravděpodobně zahrnuje skutečnou hmotnost.

To není jen hádka. Při nesprávném výkladu by každé ze 100 výše popsaných měření určovalo jiný rozsah a skutečná hmotnost by údajně měla 68% šanci, že se bude nacházet v každém z těchto rozsahů. Také má údajně 32% šanci, že bude mimo každý rozsah. Pokud se dva z těchto rozsahů náhodou neshodují, výroky jsou zjevně nekonzistentní. Řekněme, že jeden rozsah je 1 až 2 a druhý je 2 až 3. Pravá hmotnost má údajně 68% šanci, že bude mezi 1 a 2, ale pouze 32% šanci, že bude menší než 2 nebo větší než 3. To znamená, že se jedná o pravou hmotnost. Nesprávná interpretace vyčte z výroku více, než je myšleno.

Na druhou stranu při správném výkladu je každý náš výrok skutečně pravdivý, protože se netýká žádného konkrétního rozsahu. Můžeme uvést, že jedna hmotnost je 10,2 ± 0,1 gramu, zatímco ve skutečnosti je to 10,6 gramu, a nelžeme. Pokud však uvádíme méně než 1000 hodnot a více než dvě z nich se takto rozcházejí, budeme mít co vysvětlovat.

Interval spolehlivosti je možné odhadnout i bez znalosti směrodatné odchylky náhodné chyby. K tomu se používá t-rozdělení nebo neparametrické metody převzorkování, jako je bootstrap, které nevyžadují, aby chyba měla normální rozdělení.

Intervaly spolehlivosti pro podíly a související veličiny

Přibližný interval spolehlivosti pro populační průměr lze sestrojit pro náhodné veličiny, které nejsou v populaci normálně rozděleny, na základě centrální limitní věty, pokud jsou velikosti vzorků a počty dostatečně velké. Vzorce jsou totožné s výše uvedeným případem (kdy je výběrový průměr skutečně normálně rozdělen kolem populačního průměru). Aproximace bude poměrně dobrá i při pouhých několika desítkách pozorování ve vzorku, pokud se pravděpodobnostní rozdělení náhodné veličiny příliš neliší od normálního rozdělení (např. její kumulativní distribuční funkce nemá žádné nespojitosti a její šikmost je mírná).

Jedním z typů výběrového průměru je průměr indikátorové proměnné, která nabývá hodnoty 1 pro pravdivost a hodnoty 0 pro nepravdivost. Průměr takové proměnné se rovná podílu těch, u nichž je proměnná rovna jedné (jak v populaci, tak v jakémkoli vzorku). To je užitečná vlastnost indikátorových proměnných, zejména pro testování hypotéz. Pro použití centrální limitní věty je třeba použít dostatečně velký vzorek. Hrubým pravidlem je, že bychom měli vidět alespoň 5 případů, kdy je ukazatel roven 1, a alespoň 5 případů, kdy je roven 0. Intervaly spolehlivosti sestrojené pomocí výše uvedených vzorců mohou obsahovat záporná čísla nebo čísla větší než 1, ale podíly samozřejmě nemohou být záporné nebo větší než 1. Navíc výběrové podíly mohou nabývat pouze konečného počtu hodnot, takže centrální limitní věta a normální rozdělení nejsou nejlepšími nástroji pro sestavení intervalu spolehlivosti. Lepší metody, které jsou specifické pro tento případ, najdete v části „Binomický interval spolehlivosti podílu“.

Průměr (aritmetický, geometrický) – Medián – Modus – Výkon – Rozptyl – Směrodatná odchylka

Testování hypotéz – Významnost – Nulová hypotéza / Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meierův test – Logrankův test – Míra selhání – Modely proporcionálních rizik

Normální (zvonová křivka) – Poissonova – Bernoulliho

Zkreslující proměnná – Pearsonův korelační koeficient součinu a momentu – Korelace pořadí (Spearmanův korelační koeficient pořadí, Kendallův korelační koeficient pořadí tau)

Lineární regrese – Nelineární regrese – Logistická regrese