Ve statistice je výběrové zkreslení takové zkreslení, při kterém je vzorek shromažďován takovým způsobem, že někteří členové zamýšlené populace jsou méně pravděpodobní, že budou zahrnuti, než ostatní. Výsledkem je zkreslený vzorek, ne-náhodný vzorek populace (nebo jiné než lidské faktory), při kterém nebyla stejná pravděpodobnost, že budou vybráni všichni jedinci nebo případy. Pokud toto není započítáno, výsledky mohou být chybně připsány zkoumanému jevu spíše než metodě odběru vzorků.
Rozlišení od selekčního zkreslení
Odběrové zkreslení je většinou klasifikováno jako podtyp výběrového zkreslení, někdy specificky nazývané výběrové zkreslení, ale někteří ho klasifikují jako samostatný typ zkreslení. Odlišení, i když ne všeobecně přijímané, výběrového zkreslení spočívá v tom, že narušuje vnější platnost testu (schopnost jeho výsledků zobecnit na zbytek populace), zatímco výběrové zkreslení řeší hlavně vnitřní platnost rozdílů nebo podobností zjištěných v daném vzorku. V tomto smyslu chyby, které se vyskytnou v procesu sběru vzorku nebo kohorty, způsobují výběrové zkreslení, zatímco chyby v jakémkoli procesu poté způsobují výběrové zkreslení.
Nicméně selekční zkreslení a vzorkovací zkreslení se často používají synonymně.
Studium zdravotních stavů začíná neoficiálními zprávami. Svou povahou takové zprávy zahrnují pouze ty, které jsou určeny k diagnóze a léčbě. U dítěte, které nemůže fungovat ve škole, je větší pravděpodobnost, že mu bude diagnostikována dyslexie, než u dítěte, které bojuje, ale projde. U dítěte vyšetřovaného na jeden stav je větší pravděpodobnost, že bude testováno a diagnostikováno s dalšími onemocněními, což zkresluje statistiky komorbidity. Protože určité diagnózy jsou spojovány s poruchami chování nebo mentální retardací, rodiče se snaží zabránit tomu, aby jejich děti byly těmito diagnózami stigmatizovány, čímž zavádějí další zkreslení. Studie pečlivě vybrané z celých populací ukazují, že mnoho onemocnění je mnohem častějších a obvykle mnohem mírnějších, než se dříve předpokládalo.
Zkrátit výběr ve studiích rodokmenu
Jednoduchý rodokmen příklad vzorkování zkreslení
Genetici jsou omezeni v tom, jak mohou získat údaje z lidských populací. Jako příklad uveďme lidskou vlastnost. Máme zájem rozhodnout, zda se vlastnost dědí jako jednoduchá mendelova vlastnost. Podle zákonů mendelovy dědičnosti, pokud rodiče v rodině nemají vlastnost, ale nesou pro ni alelu, jsou přenašeči (např. nevýrazný heterozygot). V tomto případě budou mít jejich děti každý 25% šanci, že se vlastnost projeví. Problém vzniká proto, že nemůžeme říct, které rodiny mají oba rodiče jako přenašeče (heterozygoty), pokud nemají dítě, které vykazuje vlastnost. Popis následuje učebnici od Suttona.
Obrázek znázorňuje rodokmeny všech možných rodin se dvěma dětmi, kdy jsou rodiče přenašeči (Aa).
Příklad selekčního zkreslení se nazývá „efekt jeskynního člověka“. Velká část našeho chápání pravěkých národů pochází z jeskyní, jako jsou jeskynní malby vytvořené před téměř 40 000 lety. Pokud by existovaly současné malby na stromech, zvířecích kůžích nebo úbočích kopců, byly by již dávno odplaveny. Podobně důkazy o ohništích, středech, pohřebištích atd. s největší pravděpodobností zůstanou nedotčeny do moderní doby v jeskyních. Pravěkí lidé jsou spojováni s jeskyněmi, protože tam stále existují data, ne nutně proto, že většina z nich žila v jeskyních po většinu svého života.[původní výzkum?]
Problémy způsobené zkreslením vzorkování
Zaujatý vzorek způsobuje problémy, protože jakákoli statistika vypočtená z tohoto vzorku má potenciál být soustavně chybná. Zaujatost může vést k nadměrnému nebo podhodnocení odpovídajícího parametru v souboru. Téměř každý vzorek je v praxi zaujatý, protože je prakticky nemožné zajistit dokonale náhodný vzorek. Pokud je stupeň podhodnocení malý, může být vzorek považován za rozumnou aproximaci k náhodnému vzorku. Také pokud se skupina, která je nedostatečně zastoupena, výrazně neliší od ostatních skupin v měřeném množství, pak může být náhodný vzorek stále rozumnou aproximací.
Slovo zkreslení v běžném užívání má silnou negativní slovní konotaci a implikuje záměrný záměr uvést v omyl nebo jiný vědecký podvod. Ve statistickém užívání představuje zkreslení pouze matematickou vlastnost, bez ohledu na to, zda je záměrné nebo nevědomé nebo způsobené nedokonalostmi v přístrojích používaných pro pozorování. Zatímco někteří jedinci mohou záměrně použít zkreslený vzorek k získání zavádějících výsledků, častěji je zkreslený vzorek jen odrazem obtížnosti získání skutečně reprezentativního vzorku.
Některé vzorky používají zkreslené statistické schéma, které nicméně umožňuje odhad parametrů. Například Národní středisko pro zdravotní statistiku USA v mnoha svých celostátních průzkumech záměrně nadhodnocuje vzorky z menšinových populací, aby získalo dostatečnou přesnost pro odhady v rámci těchto skupin. Tyto průzkumy vyžadují použití výběrových vah (viz níže) k vytvoření správných odhadů napříč všemi rasovými a etnickými skupinami. Za předpokladu, že jsou splněny určité podmínky (hlavně že je vzorek vybrán náhodně z celého vzorku), umožňují tyto vzorky přesný odhad populačních parametrů.
Příklad zkresleného vzorku, který k červnu 2008 tvrdil, že pouze 54 % používaných webových prohlížečů (Internet Explorer) neprojde testem Acid2. Statistiky pocházejí od návštěvníků jedné webové stránky, kterou tvoří převážně weboví vývojáři.
Klasický příklad zkresleného vzorku a zavádějících výsledků, které přinesl, se objevil v roce 1936. V prvních dnech průzkumu veřejného mínění shromáždil americký časopis Literary Digest přes dva miliony poštovních průzkumů a předpověděl, že republikánský kandidát v prezidentských volbách v USA Alf Landon porazí stávajícího prezidenta Franklina Roosevelta s velkým náskokem. Výsledek byl přesně opačný. Průzkum Literary Digest představoval vzorek shromážděný od čtenářů časopisu, doplněný záznamy registrovaných majitelů automobilů a uživatelů telefonů. Tento vzorek zahrnoval nadměrné zastoupení jednotlivců, kteří byli bohatí a kteří jako skupina s větší pravděpodobností volili republikánského kandidáta. Naopak průzkum mezi pouhými 50 tisíci občany vybranými organizací George Gallupa úspěšně předpověděl výsledek, což vedlo k popularitě Gallupova průzkumu.
Další klasický příklad se objevil v prezidentských volbách v roce 1948. V den voleb otiskl list Chicago Tribune titulek DEWEY DEFEATS TRUMAN, který se ukázal jako mylný. Ráno byl usměvavý zvolený prezident Harry S. Truman vyfotografován, jak drží noviny s tímto titulkem. Důvod, proč se deník Tribune zmýlil, je ten, že jejich redaktor věřil výsledkům telefonického průzkumu. Průzkumový výzkum byl tehdy v plenkách a jen málo akademiků si uvědomilo, že vzorek uživatelů telefonů není reprezentativní pro běžnou populaci. Telefony ještě nebyly rozšířené a ti, kdo je měli, měli tendenci prosperovat a mít stabilní adresy. (V mnoha městech obsahoval telefonní seznam Bell System stejná jména jako sociální registr.) Navíc průzkum Gallupova ústavu, na kterém Tribune založil svůj titulek, byl v době tisku více než dva týdny starý.
Statistické korekce pro zaujatý vzorek
Pokud jsou ze vzorku vyloučeny celé segmenty populace, pak neexistují žádné úpravy, které by mohly vést k odhadům, které jsou reprezentativní pro celou populaci. Pokud jsou však některé skupiny nedostatečně zastoupeny a lze kvantifikovat míru nedostatečného zastoupení, pak výběrové váhy mohou zkreslení korigovat.[potřebná citace]
Například hypotetická populace může zahrnovat 10 milionů mužů a 10 milionů žen. Předpokládejme, že zaujatý vzorek 100 pacientů zahrnoval 20 mužů a 80 žen. Výzkumník by mohl tuto nerovnováhu korigovat tím, že přidělí váhu 2,5 pro každého muže a 0,625 pro každou ženu. Tím by se upravily veškeré odhady tak, aby se dosáhlo stejné očekávané hodnoty jako vzorek, který zahrnoval přesně 50 mužů a 50 žen, pokud by se muži a ženy nelišili ve své pravděpodobnosti účasti v průzkumu.
National Center for Health Statistics (2007). Minority Health.