Odběr vzorků (experimentální)

Odběr vzorků je ta část statistické praxe, která se zabývá výběrem jednotlivých pozorování, která mají přinést určité poznatky o sledovaném souboru, zejména pro účely statistické inference.
Každé pozorování měří jednu nebo více vlastností (hmotnost, umístění atd.) pozorovatelné entity vyjmenované pro rozlišení objektů nebo jednotlivců. Na údaje je často třeba aplikovat zjišťovací váhy, aby se upravily pro návrh vzorku. Výsledky z teorie pravděpodobnosti a statistické teorie se používají jako vodítko pro praxi.

Úspěšná statistická praxe je založena na cíleném vymezení problému. Obvykle se snažíme zasáhnout proti určité populaci, například když musí být šarže materiálu z výroby uvolněna k zákazníkovi nebo odsouzena k sešrotování nebo přepracování.

Alternativně hledáme poznatky o příčinném systému, jehož výsledkem je populace, například když výzkumník provádí experiment na krysách se záměrem získat poznatky o biochemii, které mohou být využity ve prospěch lidí. V druhém případě může být obtížné specifikovat sledovanou populaci, jako je tomu v případě měření některých fyzikálních vlastností, jako je elektrická vodivost mědi.

Ve všech případech je však čas strávený zpřesňováním populace, která je předmětem zájmu, často dobře vynaložen, často proto, že vyvolává mnoho otázek, nejasností a otázek, které by jinak byly v této fázi přehlédnuty.

V nejjednodušším případě, jako je odsouzení šarže materiálu z výroby (přejímací odběr vzorků po šaržích), je možné identifikovat a změřit každou jednotlivou položku v populaci a zařadit do našeho vzorku jakoukoli z nich. V obecnějším případě to však není možné. Neexistuje způsob, jak identifikovat všechny krysy v množině všech krys. Neexistuje způsob, jak identifikovat každého voliče v nadcházejících volbách (před volbami).

Tyto nepřesné populace nejsou přístupné odběru vzorků v některém z níže uvedených způsobů a na které bychom mohli použít statistické teorie.

Výběrový rámec musí být reprezentativní pro populaci a to je otázka mimo rámec statistické teorie vyžadující úsudek expertů v konkrétním zkoumaném předmětu. Všechny výše uvedené rámce vynechávají některé lidi, kteří budou volit v příštích volbách a obsahují některé lidi, kteří volit nebudou. Lidé, kteří nejsou v rámci, nemají žádnou vyhlídku na výběr. Statistická teorie nám říká o nejistotách při extrapolaci ze vzorku do rámce. Při extrapolaci z rámce na populaci je její role motivační a sugestivní.

Existují však silné, ale nepozorované rozdíly v názorech na přijatelnost reprezentativního odběru vzorků v různých oblastech studia. Pro filozofa nebo lékaře nemá reprezentativní odběr vzorků vůbec žádné opodstatnění, protože se jím ve filozofii nesleduje pravda. „Pro vědce je však reprezentativní odběr vzorků jediným oprávněným postupem pro výběr jednotlivých objektů, které se použijí jako základ pro zobecnění, a proto je obvykle jediným přijatelným základem pro zjištění pravdy.“ (Andrew A. Marino) . Je důležité pochopit tento rozdíl, abychom se vyhnuli matoucím receptům, které najdeme na mnoha webových stránkách.

Při definování rámce je třeba řešit praktické, ekonomické, etické a technické otázky. Potřeba dosáhnout včasných výsledků může zabránit rozšíření rámce daleko do budoucnosti.

Obtíže mohou být extrémní, když populace a rámec jsou disjunktní. To je zvláštní problém v předpovědi, kde se vyvozují závěry o budoucnosti z historických dat. Ve skutečnosti, v roce 1703, když Jacob Bernoulli navrhl Gottfriedu Leibnizovi možnost použití historických dat úmrtnosti k předpovědi pravděpodobnosti předčasné smrti živého člověka, Gottfried Leibniz rozpoznal problém v odpovědi:

Doporučujeme:  Nukleus (neuroanatomie)

„Příroda vytvořila vzorce, které mají původ v návratech událostí, ale jen z větší části. Lidskou rasu zaplavují nové nemoci, takže bez ohledu na to, kolik pokusů jste na mrtvolách provedli, jste tím nestanovili omezení povahy událostí, aby se v budoucnu nemohly měnit.“

Po vytvoření rámce existuje řada způsobů, jak jej uspořádat, aby se zvýšila efektivita a efektivita.

Právě v této fázi by měl výzkumník rozhodnout, zda se má ve skutečnosti jednat o celou populaci, a zda by se tedy jednalo o sčítání lidu.

V rámci kteréhokoli z výše uvedených typů rámců lze použít různé metody odběru vzorků, jednotlivě nebo v kombinaci.
odběr vzorků je rozdělen do dvou kategorií
1. Vzorkování pravděpodobnosti
2. Vzorkování nepravděpodobnosti

V jednoduchém náhodném vzorku dané velikosti je všem takovým podmnožinám rámce dána stejná pravděpodobnost. Každý prvek rámce má tedy stejnou pravděpodobnost výběru: rámec není rozdělen ani rozdělen. Je možné, že vzorek nebude zcela náhodný.

Výběr (řekněme) každého 10. jména z telefonního adresáře se nazývá každý 10. vzorek, což je příklad systematického vzorkování. Jedná se o typ vzorkování pravděpodobnosti, pokud není samotný adresář náhodně vybrán. Je snadno implementovatelný a vyvolaná stratifikace jej může zefektivnit, ale je zvláště zranitelný vůči periodicitám v seznamu. Pokud je přítomna periodicita a perioda je násobkem 10, pak vznikne zkreslení. Je důležité, aby zvolené první jméno nebylo jednoduše první v seznamu, ale bylo vybráno jako (řekněme) 7., kde 7 je náhodné celé číslo v rozsahu 1,…,10-1. Každý 10. vzorek je zvláště užitečný pro efektivní vzorkování z databází.

V případech, kdy populace zahrnuje několik odlišných kategorií, může být rámec uspořádán podle těchto kategorií do samostatných „vrstev“. Z každé „vrstvy“ se pak vybere vzorek zvlášť, čímž vznikne stratifikovaný vzorek. Dva hlavní důvody pro použití stratifikovaného vzorového vzoru jsou zajistit, aby byly ve vzorku adekvátně zastoupeny konkrétní skupiny v rámci populace, a zlepšit účinnost získáním větší kontroly nad složením vzorku. Ve druhém případě lze významného zvýšení účinnosti (buď nižší velikosti vzorku, nebo vyšší přesnosti) dosáhnout změnou vzorkovacího zlomku od vrstvy ke vrstvě. Velikost vzorku je obvykle úměrná relativní velikosti vrstev. Pokud se však rozdíly mezi jednotlivými vrstvami výrazně liší, měly by být velikosti vzorku úměrné směrodatné odchylce vrstvy. Nepřiměřená stratifikace může zajistit lepší přesnost než úměrná stratifikace. Obvykle by měly být vrstvy zvoleny tak, aby:

Někdy je levnější vzorek nějakým způsobem „seskupit“, např. výběrem respondentů pouze z určitých oblastí, nebo pouze z určitých časových období. (Téměř všechny vzorky jsou v určitém smyslu „seskupeny“ v čase – i když se to v analýze bere v úvahu jen zřídka.)

Skupinový odběr vzorků je příkladem „dvoustupňového odběru vzorků“ nebo „vícestupňového odběru vzorků“: v první fázi se vybere vzorek oblastí, ve druhé fázi se vybere vzorek respondenta v rámci těchto oblastí.

To může snížit cestovní a další administrativní náklady. Znamená to také, že člověk nepotřebuje vzorkovací rámec pro celou populaci, ale pouze pro vybrané shluky.

Odběr shluků obecně zvyšuje variabilitu odhadů vzorků nad úroveň jednoduchého náhodného odběru v závislosti na tom, jak se shluky liší mezi sebou ve srovnání s vnitroshlukovou variabilitou.

Doporučujeme:  Metoda

Metoda přiřazování účastníků do skupin, v nichž se páry účastníků nejprve porovnávají podle nějaké charakteristiky a poté se jednotlivě náhodně přiřazují do skupin. (Brown, Cozby, Kee, & Worden, 1999, s. 371).

Postup pro porovnávání náhodných vzorků lze seznámit s následujícími kontexty,

a) Dva vzorky, ve kterých jsou členové jasně spárováni nebo jsou výzkumníkem přímo spárováni. Například měření IQ nebo páry identických dvojčat.

b) Vzorky, ve kterých se u každého subjektu měří dvakrát stejný atribut nebo proměnná, a to za různých okolností. Běžně se tomu říká opakovaná měření. Příkladem jsou časy skupiny sportovců na 1500 m před a po týdnu speciálního tréninku; dojivost krav před a po krmení určitou stravou.

Při výběru podle kvót se populace nejprve rozdělí do vzájemně se vylučujících podskupin, stejně jako při stratifikovaném výběru. Poté se podle úsudku vyberou subjekty nebo jednotky z každého segmentu na základě specifikovaného podílu. Například tazatel může být požádán, aby odebral vzorek 200 žen a 300 mužů ve věku 45 až 60 let.

Je to právě tento druhý krok, který z techniky dělá jeden z nepravděpodobných vzorků. Při kvótním výběru je výběr vzorku ne-náhodný. Například tazatelé by mohli být v pokušení udělat rozhovor s těmi, kteří vypadají nejužitečněji. Problém je, že tyto vzorky mohou být neobjektivní, protože ne každý dostane šanci na výběr. Tento náhodný prvek je jeho největší slabinou a kvóta versus pravděpodobnost je předmětem sporů již mnoho let.

Mechanický odběr vzorků se typicky používá při odběru vzorků pevných látek, kapalin a plynů pomocí zařízení, jako jsou lapače, lopatky, zlodějské sondy, rozbušky COLIWASA a riffle.

Je třeba dbát na to, aby byl vzorek reprezentativní pro rám. Mnoho práce v této oblasti vyvinul Pierre Gy.

Někdy se tomu říká grab nebo opportunity sampling, to je metoda výběru položek libovolně a nestrukturovaným způsobem z rámu. I když je téměř nemožné zacházet přísně, je to metoda nejčastěji používaná v mnoha praktických situacích. Ve výzkumu společenských věd je snowball sampling podobnou technikou, kdy se používají existující studijní subjekty k náboru více subjektů do vzorku.

Odběr vzorku čáry-záchytu je metoda odběru vzorků prvků v oblasti, kdy je vzorek prvku odebrán, pokud vybraný úsek čáry, nazývaný „transekt“, prvek protíná.

Obecně spojitá náhodná proměnná vyžaduje méně vzorků než diskrétní náhodná proměnná. To lze zdůvodnit odkazem na Ústřední limitní větu

Odběr vzorků a sběr údajů

Většina výběrových knih a prací napsaných ne-statistiky se zaměřuje pouze na aspekt sběru dat, což je jen malá část procesu odběru.

Přezkum postupu odběru vzorků

Po odběru vzorků by měl být proveden přezkum přesného postupu, který byl při odběru vzorků dodržen, a nikoli zamýšleného postupu, aby mohly být zkoumány případné účinky případných odchylek na následnou analýzu. Zvláštním problémem jsou neodpovědi.

Při výběru vzorků z průzkumu může být mnoho jedinců identifikovaných jako součást vzorku neochotných nebo nemožných se s nimi spojit. V tomto případě existuje riziko rozdílů, mezi (řekněme) ochotnými a neochotnými, což vede k selektivnímu zkreslení závěrů. To je často řešeno následnými studiemi, které se opakovaně pokoušejí kontaktovat neodpovídající a charakterizovat jejich podobnosti a rozdíly se zbytkem rámce. Účinky mohou být také zmírněny vážením dat, když jsou k dispozici populační referenční hodnoty. Neodpověď je problémem zejména při výběru vzorků z internetu. Jedním z hlavních důvodů tohoto problému může být, že lidé mohou mít více e-mailových adres, které již nepoužívají nebo je pravidelně nekontrolují.

Doporučujeme:  Dobrovolnictví

V mnoha situacích se může podíl vzorku lišit podle vrstev a údaje budou muset být váženy, aby správně reprezentovaly populaci. Tak například jednoduchý náhodný vzorek jednotlivců ve Spojeném království by mohl zahrnovat některé z odlehlých skotských ostrovů, jejichž odběr by byl nepřiměřeně nákladný. Levnější metodou by bylo použít stratifikovaný vzorek s městskými a venkovskými vrstvami. Venkovský vzorek by mohl být ve vzorku zastoupen nedostatečně, ale v analýze by byl vhodně vážen, aby se to kompenzovalo.

Obecněji řečeno, údaje by se obvykle měly vážit, pokud uspořádání výběrového souboru nedává každému jednotlivci stejnou šanci na výběr. Například pokud mají domácnosti stejnou pravděpodobnost výběru, ale v rámci každé domácnosti je dotazována jedna osoba, dává to lidem z velkých domácností menší šanci na dotazování. To lze zohlednit použitím vah průzkumu. Podobně mají domácnosti s více než jednou telefonní linkou větší šanci na výběr ve výběrovém souboru s náhodným vytáčením čísel a váhy se tomu mohou přizpůsobit.

Váhy mohou sloužit i k jiným účelům, například jako pomoc při korekci v případě neodpovědi.

Náhodné vzorkování pomocí partií je starý nápad, několikrát zmiňovaný v Bibli. V roce 1786 odhadl Pierre Simon Laplace počet obyvatel Francie pomocí vzorku, spolu s poměrovým odhadem. Vypočítal také pravděpodobnostní odhady chyby. Ty nebyly vyjádřeny jako moderní intervaly spolehlivosti, ale jako velikost vzorku, která by byla potřebná k dosažení určité horní hranice výběrové chyby s pravděpodobností 1000/1001. Jeho odhady použily Bayesovu větu s jednotnou předchozí pravděpodobností a předpokládalo se, že jeho vzorek byl náhodný. Teorie statistik malých vzorků vyvinutá Williamem Sealym Gossettem položila toto téma na přísnější základ ve 20. století. Nicméně význam náhodného vzorkování nebyl všeobecně oceňován a v USA se v roce 1936 v Literary Digest předpověď vítězství republikánů v prezidentských volbách značně zvrtla, kvůli závažné předpojatosti [Experimental:Sex]].com/public/article/SB115974322285279370-_rk13XDUHmIcnA8DYs5VUscZG94_20071001.html?mod=rss_free]. Velikost vzorku jeden milion byl získán prostřednictvím seznamů předplatitelů časopisů a telefonních seznamů. Nebylo doceněno, že tyto seznamy byly silně předpojaté vůči republikánům a výsledný vzorek, i když byl velmi velký, byl hluboce chybný.

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese