Omezení spolehlivosti (statistiky)

Ve statistikách je interval spolehlivosti (CI) nebo interval spolehlivosti intervalovým odhadem populačního parametru. Místo odhadu parametru podle jedné hodnoty je uveden interval, který pravděpodobně bude parametr zahrnovat. Intervaly spolehlivosti se tedy používají k označení spolehlivosti odhadu. Jak je pravděpodobné, že interval bude parametr obsahovat, je určeno úrovní spolehlivosti nebo koeficientem spolehlivosti. Zvýšení požadované úrovně spolehlivosti interval spolehlivosti rozšíří.

CI lze například použít k popisu toho, jak spolehlivé jsou výsledky průzkumu. V průzkumu volebních záměrů může být výsledkem to, že 40 % respondentů má v úmyslu volit určitou stranu. 95% interval spolehlivosti pro podíl v celé populaci, která má k datu průzkumu stejný záměr, může být 36 % až 44 %. Za jinak stejných podmínek je výsledek průzkumu s malým CI spolehlivější než výsledek s velkým CI a jednou z hlavních věcí, která kontroluje tuto šířku v případě průzkumů v populaci, je velikost dotazovaného vzorku. Intervaly spolehlivosti a odhady intervalů mají obecněji uplatnění v celé řadě kvantitativních studií.

Pokud je statistika prezentována s intervalem spolehlivosti a je prohlašována za statisticky významnou, základní test vedoucí k tomuto tvrzení bude proveden s hladinou významnosti 100 % minus hladina spolehlivosti intervalu. Pokud tento test přinesl chybu typu I, statistika a její interval spolehlivosti nebudou mít žádný vztah k základnímu parametru.

V tomto sloupcovém grafu označují horní konce sloupců střední hodnoty pozorování a červené segmenty čar představují intervaly spolehlivosti, které je obklopují. Rozdíl mezi oběma populacemi nalevo je významný. Je však častým omylem předpokládat, že dva parametry, jejichž 95% intervaly spolehlivosti se nepřekrývají, se na 5% úrovni významně liší.

Pro daný podíl p (kde p je hladina spolehlivosti) je interval spolehlivosti pro populační parametr interval, který se vypočítá z náhodného vzorku základního souboru tak, že pokud by se odběr opakoval mnohokrát a interval spolehlivosti by se přepočítal z každého vzorku stejnou metodou, podíl p intervalů spolehlivosti by obsahoval dotyčný populační parametr. V neobvyklých případech může soubor spolehlivosti sestávat ze souboru několika samostatných intervalů, které mohou zahrnovat polonekonečné intervaly, a je možné, že výsledkem výpočtu intervalu spolehlivosti by mohl být soubor všech hodnot od minus nekonečna po plus nekonečno.

Intervaly spolehlivosti hrají ve frekvenčních statistikách podobnou roli jako interval spolehlivosti v bayesovských statistikách. Intervaly spolehlivosti a intervaly spolehlivosti se však liší nejen matematicky, ale mají radikálně odlišné interpretace.

V aplikované praxi se intervaly spolehlivosti obvykle uvádějí na 95% hladině spolehlivosti. Při grafickém znázornění však mohou intervaly spolehlivosti vykazovat několik hladin spolehlivosti, například 50%, 95% a 99%.

Intervaly spolehlivosti jako náhodné intervaly

Intervaly spolehlivosti jsou konstruovány na základě daného datového souboru: x označuje soubor pozorování v datovém souboru a X se používá při zvažování výsledků, které mohly být pozorovány ze stejné populace, kde X je považováno za náhodnou veličinu, jejíž pozorovaný výsledek je X = x. Interval spolehlivosti je specifikován dvojicí funkcí u(.) a v(.) a interval spolehlivosti pro daný datový soubor je definován jako interval (u(x), v(x)). Pro úplnou definici intervalu spolehlivosti je třeba jasně porozumět veličině, pro kterou CI poskytuje odhad intervalu. Předpokládejme, že tato veličina je w. Vlastnost pravidel u(.) a v(.), která činí interval (u(x),v(x)) nejblíže tomu, jaký by byl interval spolehlivosti pro w, se vztahuje k vlastnostem množiny náhodných intervalů daných (u(X),v(X)): která považuje koncové body za náhodné veličiny. Tato vlastnost je pravděpodobnost pokrytí nebo pravděpodobnost c, kterou náhodný interval zahrnuje w,

Zde jsou koncové body U = u(X) a V = v(X) statistiky (tj. pozorovatelné náhodné veličiny), které jsou odvozeny z hodnot v datovém souboru. Náhodný interval je (U, V).

Intervaly spolehlivosti pro vyvození

Předpokládejme, že toto rozdělení pravděpodobnosti je charakterizováno nepozorovatelným parametrem θ, což je veličina, která má být odhadnuta, a dalšími nepozorovatelnými parametry φ, které nejsou bezprostředně zajímavé. Tyto další veličiny φ, které nejsou bezprostředně zajímavé, se nazývají rušivé parametry, protože statistická teorie stále potřebuje najít nějaký způsob, jak se s nimi vypořádat.

Definice intervalu spolehlivosti pro θ pro libovolné číslo α mezi 0 a 1 je interval

a u(X) a v(X) jsou pozorovatelné náhodné veličiny, tj. člověk nemusí znát hodnotu nepozorovatelných veličin θ, φ, aby znal hodnoty u(X) a v(X).

Číslo 1 −α (někdy uváděné jako procento 100%·(1 − α)) se nazývá hladina spolehlivosti nebo koeficient spolehlivosti. Většina standardních knih přejímá tuto konvenci, kde α bude malé číslo. Zde se používá k označení pravděpodobnosti, kdy náhodná proměnná X má rozdělení charakterizované . Důležitou součástí této specifikace je, že náhodný interval (U, V) pokrývá neznámou hodnotu θ s vysokou pravděpodobností bez ohledu na to, jaká je skutečná hodnota θ ve skutečnosti.

Všimněte si, že zde nemusíme odkazovat na explicitně danou parametrizovanou rodinu distribucí, i když se tak často děje. Stejně jako náhodná proměnná X pomyslně odpovídá jiným možným realizacím x ze stejné populace nebo ze stejné verze reality, parametry naznačují, že musíme vzít v úvahu jiné verze reality, ve kterých by rozdělení X mohlo mít odlišné charakteristiky.

Intervaly pro náhodné výsledky

Intervaly spolehlivosti lze definovat pro náhodné veličiny stejně jako pro fixní veličiny, jak je uvedeno výše. Viz interval predikce. K tomu uvažujme dodatečnou jednohodnotovou náhodnou veličinu Y, která může, ale nemusí být statisticky závislá na X. Pak pravidlo pro konstrukci intervalu(u(x), v(x)) poskytuje interval spolehlivosti pro dosud nepozorovanou hodnotu y Y, jestliže

Zde se používá pro označení pravděpodobnosti nad společné rozložení náhodných veličin (X, Y), pokud je to charakterizováno parametry .

Přibližné intervaly spolehlivosti

U nestandardních aplikací není někdy možné najít pravidla pro konstrukci intervalů spolehlivosti, které mají přesně požadované vlastnosti. Prakticky užitečné intervaly však lze najít i tak. Pravděpodobnost pokrytí pro náhodný interval je definována

a pravidlo pro konstrukci intervalu lze přijmout jako poskytnutí intervalu spolehlivosti, pokud

na přijatelnou úroveň aproximace.

Srovnání s odhady bayesovského intervalu

Bayesovský intervalový odhad se nazývá důvěryhodný interval. Při použití stejné notace jako výše je definice důvěryhodného intervalu pro neznámou skutečnou hodnotu θ pro dané α,

Zde Θ se používá pro zdůraznění, že neznámá hodnota je považována za náhodnou veličinu. Definice obou typů intervalů mohou být porovnány následovně.

Všimněte si, že zacházení s výše uvedenými parametry obtěžování je v diskusích srovnávajících spolehlivost a věrohodné intervaly často opomíjeno, ale mezi oběma případy se výrazně liší.

V některých jednoduchých standardních případech mohou být intervaly vytvořené jako intervaly spolehlivosti a důvěryhodné intervaly ze stejného datového souboru identické. Jsou vždy velmi odlišné, pokud je do Bayesovy analýzy zahrnuta umírněná nebo silná předchozí informace.

Při použití poměrně standardních statistických postupů budou často existovat poměrně standardní způsoby konstrukce intervalů spolehlivosti. Ty budou navrženy tak, aby splňovaly určité žádoucí vlastnosti, které budou platit vzhledem k tomu, že předpoklady, o které se postup opírá, jsou pravdivé. V nestandardních aplikacích by se hledaly stejné žádoucí vlastnosti. Tyto žádoucí vlastnosti mohou být popsány jako: platnost, optimálnost a invariance. Z těchto „validita“ je nejdůležitější, těsně následovaná „optimálnost“. „Invariance“ může být považována za vlastnost metody odvození intervalu spolehlivosti spíše než pravidla pro konstrukci intervalu.

Pro nestandardní aplikace existuje několik cest, které by mohly být použity k odvození pravidla pro konstrukci intervalů spolehlivosti. Zavedená pravidla pro standardní postupy mohou být odůvodněna nebo vysvětlena prostřednictvím několika těchto cest. Pravidlo pro konstrukci intervalů spolehlivosti je obvykle úzce svázáno s konkrétním způsobem zjištění bodového odhadu uvažovaného množství.

Stroj plní šálky margarínem, a má být nastaven tak, aby se průměrný obsah šálků blížil 250 gramům margarínu. Samozřejmě není možné naplnit každý šálek přesně 250 gramy margarínu. Proto lze hmotnost náplně považovat za náhodnou proměnnou X. Rozložení X se zde předpokládá jako normální rozdělení s neznámým očekáváním μ a (pro zjednodušení) známou směrodatnou odchylkou σ = 2,5 gramu. Pro kontrolu, zda je stroj dostatečně nastaven, se náhodně vybere vzorek n = 25 šálků margarínu a šálky se zváží. Váhy margarínu jsou , náhodný vzorek z X.

Pro získání dojmu o očekávaném μ postačí uvést odhad. Vhodným odhadem je průměr vzorku:

Ukázka ukazuje skutečné hmotnosti , s průměrem:

Pokud odebereme další vzorek 25 kelímků, můžeme snadno očekávat hodnoty jako 250,4 nebo 251,1 gramů. Průměrná hodnota vzorku 280 gramů by však byla extrémně vzácná, pokud by se průměrný obsah kelímků ve skutečnosti blížil 250 gramům. Kolem sledované hodnoty 250,2 výběrového průměru existuje celý interval, v jehož rámci, pokud by průměr celého souboru skutečně nabral hodnotu v tomto rozmezí, by pozorované údaje nebyly považovány za zvlášť neobvyklé. Takový interval se nazývá interval spolehlivosti pro parametr μ. Jak takový interval vypočítáme? Cílové body intervalu musí být vypočteny ze vzorku, jsou to tedy statistiky, funkce vzorku a tedy i samotné náhodné proměnné.

V našem případě můžeme koncové body určit tak, že průměr vzorku z normálně distribuovaného vzorku je také normálně distribuován, se stejným očekáváním μ, ale se standardní chybou (gramy). Standardizací získáme náhodnou proměnnou

Výše uvedený výraz standardizuje vaši proměnnou. To vám umožňuje provést tuto analýzu, vypočítat 95% interval spolehlivosti. μ je nějaké budoucí měření, sigma je vaše směrodatná odchylka, N je velikost vzorku (v tomto případě 25) a X bar je váš výběrový průměr (v tomto případě 250,2). Pro výpočet intervalu spolehlivosti musíme nejprve vybrat α proměnnou. Protože nás zajímá 95% interval spolehlivosti, nastavíme α = 0,05. Tudíž je možné najít čísla −z a z, nezávisle na μ, kde Z leží mezi s pravděpodobností 1 − α. Vezmeme 1 − α = 0,95. Takže máme:

Číslo z vyplývá z kumulativní distribuční funkce, která nám dává hodnotu z a je platné, protože jsme standardizovali naše velké Z. (viz také probit). Proto:

To by mohlo být interpretováno jako: s pravděpodobností 0,95 ku jedné zvolíme interval spolehlivosti, ve kterém splníme parametr μ mezi stochastickými koncovými body, ale to neznamená, že možnost splnění parametru μ v intervalu spolehlivosti je 95% :

Segmenty svislých čar představují 50 realizací intervalu spolehlivosti pro μ.

Tento interval má pevně stanovené koncové body, kde μ může být mezi (nebo ne). Pravděpodobnost takové události neexistuje. Nemůžeme říci: „s pravděpodobností (1 − α) leží parametr μ v intervalu spolehlivosti.“ Víme pouze, že opakování ve 100(1 − α) % případů μ bude ve vypočteném intervalu. Ve 100α % případů však tomu tak není. A bohužel nevíme, ve kterém z případů k tomu dojde. Proto říkáme: „s úrovní spolehlivosti 100(1 − α) % μ leží v intervalu spolehlivosti.“

Obrázek vpravo ukazuje 50 realizací intervalu spolehlivosti pro daný populační průměr μ. Pokud náhodně vybereme jednu realizaci, pravděpodobnost je 95%, nakonec si vybereme interval, který obsahuje daný parametr; nicméně můžeme mít smůlu a vybrat si špatný. To se nikdy nedozvíme; uvízli jsme na svém intervalu.

Předpokládejme, že X1, …, Xn jsou nezávislým vzorkem z normálně rozložené populace se středním μ a rozptylem σ2. Dovolit

má Studentovo t-rozdělení s n − 1 stupni volnosti. Všimněte si, že rozdělení T nezávisí na hodnotách nepozorovatelných parametrů μ a σ2; tj. je to stěžejní veličina. Pokud c je 95. percentil tohoto rozdělení, pak

(Poznámka: „95. a „0,9“ jsou v předchozích výrazech správně. Existuje 5% pravděpodobnost, že T bude menší než −c a 5% pravděpodobnost, že bude větší než +c. Tudíž pravděpodobnost, že T bude mezi −c a +c je 90%.)

a máme teoretický (stochastický) 90% interval spolehlivosti pro μ.

Po pozorování vzorku najdeme hodnoty pro a s pro S, ze kterých vypočítáme interval spolehlivosti

interval s pevnými čísly jako koncovými body, o kterých už nemůžeme říct, že je určitá pravděpodobnost, že obsahuje parametr μ. Buď μ v tomto intervalu je, nebo není.

Vztah k testování hypotéz

Formulace pojmů intervaly spolehlivosti a testování statistických hypotéz jsou sice odlišné, ale v některých smyslech spolu souvisejí a do jisté míry se doplňují. I když ne všechny intervaly spolehlivosti jsou konstruovány tímto způsobem, jedním z obecných účelových přístupů ke konstrukci intervalů spolehlivosti je definovat 100(1−α)% interval spolehlivosti, který se má skládat ze všech hodnot θ0, pro které není test hypotézy θ=θ0 odmítnut na úrovni významnosti 100α%. Takový přístup nemusí být vždy k dispozici, protože předpokládá praktickou dostupnost vhodného testu významnosti. Jakékoli předpoklady požadované pro test významnosti by se přirozeně přenesly do intervalů spolehlivosti.

Může být vhodné uvést obecnou shodu, že hodnoty parametrů v rámci intervalu spolehlivosti jsou ekvivalentní těm hodnotám, které by nebyly odmítnuty testem hypotéz, ale to by bylo nebezpečné. V mnoha případech jsou intervaly spolehlivosti, které jsou citovány, jen přibližně platné, třeba odvozené z „plus minus dvojnásobek standardní chyby“, a důsledky toho pro údajně odpovídající testy hypotéz jsou obvykle neznámé.

Význam a interpretace

Pro uživatele frekvenčních metod lze podat různé interpretace intervalu spolehlivosti.

V každém z výše uvedených bodů platí následující. Pokud skutečná hodnota parametru leží mimo 90% interval spolehlivosti, jakmile byla vypočtena, pak došlo k události, která měla pravděpodobnost 10% (nebo menší) náhodného výskytu.

Uživatelé bayesovských metod, pokud by vytvořili intervalový odhad, by naproti tomu chtěli říci „Můj stupeň přesvědčení, že parametr je ve skutečnosti v tomto intervalu je 90%“ . Viz Důvěryhodný interval.
Neshody o těchto otázkách nejsou neshodami o řešení matematických problémů. Spíše jsou neshodami o způsobech, kterými má být matematika aplikována.

Význam pojmu důvěra

Existuje rozdíl ve významu mezi běžným užíváním slova „důvěra“ a jeho statistickým užíváním, které je pro laika často matoucí. V běžném užívání se tvrzení o 95% důvěře v něco obvykle považuje za označení virtuální jistoty. Ve statistice tvrzení o 95% důvěře jednoduše znamená, že výzkumník viděl, že se stalo něco, co se stane jen jednou za dvacet nebo méně. Pokud by člověk hodil dvě kostky a dostal dvojitou šestku, málokdo by to tvrdil jako důkaz, že kostky byly pevné, i když statisticky vzato by člověk mohl mít 97% důvěru, že byly. Podobně zjištění statistické souvislosti s 95% důvěrou není důkazem, a dokonce ani velmi dobrým důkazem, že existuje reálná souvislost mezi věcmi, které spolu souvisí.

Pokud studie zahrnuje více statistických testů, někteří laici předpokládají, že důvěra spojená s jednotlivými testy je důvěra, kterou by měl mít člověk ve výsledky samotné studie. Ve skutečnosti musí být výsledky všech statistických testů provedených během studie posuzovány jako celek při určování, jakou důvěru může člověk vložit do pozitivních vazeb, které vytváří. Pokud byla provedena studie zahrnující 40 statistických testů s 95% důvěrou, lze očekávat, že přibližně dva z testů vrátí falešně pozitivní výsledky. Pokud jsou nalezeny 3 vazby, důvěra spojená s těmito vazbami „jako výsledek průzkumu“ je ve skutečnosti asi 32%; to je to, co by mělo být očekáváno ve dvou třetinách případů.

Intervaly spolehlivosti měření

Tento článek je označen od dubna 2008.

Výsledky měření jsou často doprovázeny intervaly spolehlivosti. Například předpokládejme, že je známo, že stupnice dává skutečnou hmotnost objektu plus normálně rozloženou náhodnou chybu se střední hodnotou 0 a známou směrodatnou odchylkou σ. Pokud zvážíme 100 objektů známé hmotnosti na této stupnici a vykážeme hodnoty ±σ, pak můžeme očekávat, že přibližně 68% vykázaných rozsahů zahrnuje skutečnou hmotnost.

Pokud chceme hlásit hodnoty s menší standardní chybovou hodnotou, pak opakujeme měření n krát a výsledky zprůměrujeme. Pak je interval spolehlivosti 68,2%. Například opakování měření 100krát sníží interval spolehlivosti na 1/10 původní šířky.

Všimněte si, že když nahlásíme 68,2% interval spolehlivosti (obvykle nazývaný standardní chyba) jako v ± σ, neznamená to, že skutečná hmotnost má 68,2% šanci, že bude ve vykazovaném rozsahu. Ve skutečnosti je skutečná hmotnost buď v rozsahu, nebo ne. Jak lze říci, že hodnota mimo rozsah má nějakou šanci, že bude v rozsahu? Naše tvrzení spíše znamená, že 68,2% rozsahů, které nahlásíme pomocí ± σ, pravděpodobně bude zahrnovat skutečnou hmotnost.

To není jen slovíčkaření. Podle nesprávné interpretace by každé ze 100 výše popsaných měření specifikovalo jiný rozsah a skutečná hmotnost má údajně 68% šanci, že bude v každém jednotlivém rozsahu. Také má údajně 32% šanci, že bude mimo každý jednotlivý rozsah. Pokud jsou dva z výše popsaných rozsahů nesouvislé, tvrzení jsou zjevně nekonzistentní. Řekněme, že jeden rozsah je 1 až 2 a druhý 2 až 3. Údajně má skutečná hmotnost 68% šanci, že bude mezi 1 a 2, ale pouze 32% šanci, že bude menší než 2 nebo větší než 3. Nesprávná interpretace se do tvrzení promítne více, než je míněno.

Na druhou stranu, podle správné interpretace je každý výrok, který vyslovíme, skutečně pravdivý, protože výroky se netýkají žádného konkrétního rozsahu. Mohli bychom uvést, že jedna hmotnost je 10,2 ± 0,1 gramu, zatímco ve skutečnosti je to 10,6 gramu, a nelhat. Pokud však nahlásíme méně než 1000 hodnot a více než dvě z nich jsou tak daleko, budeme mít co vysvětlovat.

Je také možné odhadnout interval spolehlivosti bez znalosti směrodatné odchylky náhodné chyby. To se provádí pomocí t rozdělení, nebo pomocí neparametrických metod převzorkování, jako je bootstrap, které nevyžadují, aby chyba měla normální rozdělení.

Intervaly spolehlivosti pro podíly a související veličiny

Přibližný interval spolehlivosti pro populační průměr lze sestrojit pro náhodné proměnné, které nejsou normálně v populaci rozloženy, a to na základě centrální limitní věty, pokud jsou velikosti a počty vzorků dostatečně velké. Vzorce jsou shodné s výše uvedeným případem (kdy je výběrový průměr skutečně normálně rozložen okolo populačního průměru). Přibližování bude docela dobré jen s několika desítkami pozorování ve vzorku, pokud se rozdělení pravděpodobnosti náhodné proměnné příliš neliší od normálního rozdělení (např. její kumulativní distribuční funkce nemá žádné diskontinuity a její šikmost je střední).

Jeden typ výběrového průměru je průměr indikátorové proměnné, která bere na sebe hodnotu 1 pro true a hodnotu 0 pro false. Průměr takové proměnné se rovná podílu, který má proměnnou rovnou jedné (jak v populaci, tak v jakémkoli vzorku). To je užitečná vlastnost indikátorových proměnných, zejména pro testování hypotéz. Pro aplikaci centrální limitní věty je třeba použít dostatečně velký vzorek. Hrubým pravidlem je, že je třeba vidět alespoň 5 případů, ve kterých je indikátor 1 a alespoň 5, ve kterých je 0. Intervaly spolehlivosti konstruované pomocí výše uvedených vzorců mohou zahrnovat záporná čísla nebo čísla větší než 1, ale proporce samozřejmě nemohou být záporné nebo vyšší než 1. Navíc proporce vzorků mohou brát na sebe pouze konečný počet hodnot, takže centrální limitní věta a normální rozdělení nejsou nejlepšími nástroji pro budování intervalu spolehlivosti. Lepší metody, které jsou pro tento případ specifické, najdete v „Binomial proportion confidence interval“.

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese