Pristrasnost uzorkovanja

U statistici, do pristrasnosti uzorkovanja (engl. Sampling bias) dolazi kada svi članovi populacije nemaju istu verovatnoću da uđu u uzorak.[1][2] Ako se prilikom statističkog zaključivanja to ne uzme u obzir, mogu se dobiti pogrešni rezultati i fenomenu koji se proučava pripisati osobine koje on zapravo nema, a koji potiču usled metode uzorkovanja.

Razlika u odnosu na pristrasnost izbora

Pristrasnost uzorkovanja se obično klasifikuje kao podvrsta pristrasnosti izbora[3], mada je neki posmatraju odvojeno. Razlika (koja nije opšte prihvaćena) leži u tome što pristrasnost uzorkovanja podriva spoljnu valjanost zaključaka (odnosno uopštavanje sa uzorka na čitavu populaciju), dok se pristrasnost izbora uglavnom tiče unutrašnje valjanosti. U tom smislu, do pristrasnosti uzorkovanja dolazi usled grešaka u sastavljanju uzorka, dok do pristrasnosti izbora dolazi usled grešaka u daljem toku istraživanja.

Međutim, ova dva pojma se često koriste kao sinonimi.[4]

Istorijski primeri

Klasičan primer pristrasnog uzorkovanja i obamanjujućih rezultata koji su nastali dogodio se 1936. U prvim danima ispitivanja javnog mnjenja, časopis American Literary Digest je prikupio preko dva miliona poštanskih anketa i predvideo da će republikanski kandidat na američkim predsedničkim izborima Alf Landon pobediti tadašnjeg predsednika Frenklina Ruzvelta sa velikom razlikom, dok je rezultat bio suprotan. Istraživanje ovog časopisa predstavljao je uzorak prikupljen od strane čitalaca istog, dopunjen evidencijom registrovanih vlasnika automobila i korisnika telefona. Ovaj uzorak obuhvatio je prekomerenu zastupljenost bogatih pojedinaca koji su kao grupa imali veću verovatnoću da glasaju za republikanskog kandidata. Suprotno ovome, anketa od samo 50 hiljada građanina Džordža Galupa je uspešno predvidela rezultat, što je dovelo do popularnosti njegove ankete.

Jos jedan klasičan primer dogodio se na predsedničkim izborima 1948 godine. U izbornoj noći Chicago Tribune štampao je naslov "DEWEY DEFEATS TRUMAN"[5], koji se ispostavio da je netačan. Ujutru se izabrani predsednik Hari Truman fotografisao kako drži novine sa ovim naslovom. Razlog za ovu grešku je to što je urednik ovih novina verovao rezultatima telefonskih anketa. Anketno istraživanje je tada bilo u razvoju, pa je malo akademika shvatilo da ovaj uzorak nije reprezentativan za opštu populaciju. Telefoni još uvek nisu bili široko rasprostranjeni. Pored toga anketa na kojoj je Chicago Tribune zasnovao svoj naslov bila je stara više od dve nedelje u vreme štampanja.[6]

Noviji primer je pandemija korona virusa COVID-19, gde se pokazalo da varijacije u pristrasnosti uzoraka u testiranju na COVID-19 objašnjavaju velike razlike u stopama smrtnosti i starosnoj raspodeli po zemljama.

Tipovi

  • Izbor specifičnog okvira - Uzorkovani su samo određeni članovi. Nije pokrivena šira površina ispitivanja. Primer: O mišljenju određene političke partije ispitani su ljudi u parku ponedeljkom u 10 ujutru. Prosečna starost ispitanika je bila 57 godina. To je zato što je mlađa populacija bila ili u školi ili na poslu i nisu mogli da učestvuju u anketiranju.
  • Pristrasnost samo-selekcije - Ova greška se pojavljuje kada god članovi mogu da biraju da li hoće ili neće da učestvuju. Ovo može dovesti do toga da se izjašnjavaju ljudi koji imaju radikalnije(jake) stavove pa da budu imaju veći udeo u ispitivanju nego sto je to u stvarnosti. Ovo se često dešava kada su u pitanju online ankete, ili ankete preko telefona. Primer: U anketi za vezanoj globalno zagrevanje, ljudi koji misle da je to svetska zavera su predstavljali 1/3 ispitanika. To je zbog toga što ostatak populacije ili nije hteo da se izjasni ili to nisu smatrali svrsishodno.
  • Pristrasnost na osnovu zdravlja - Primer: Neko ko je dijabetičar ima smanjenu fizičku aktivnost.
  • Berksonov paradoks - Primer: Pretpostavimo da kolekcionar ima 1000 poštanskih markica, od kojih je 300 lepih i 100 retkih, a 30 i lepih i retkih. 10% svih njegovih markica je retko, a 10% lepih markica su i retke, tako da lepota ne govori ništa o retkosti. Izložio je 370 markica koje su lepe ili retke. Nešto više od 27% izloženih markica je retko (100/370), ali ipak je samo 10% lepih markica retko (a 100% od 70 nelepih markica na izložbi su retke). Ako posmatrač uzima u obzir samo izložene markice, primetiće lažni negativni odnos između lepote i retkosti kao rezultat pristrasnosti izbora (to jest, neprivlačnost snažno ukazuje na retkost na prikazu, ali ne i u celoj kolekciji).
  • Prekomerno podudaranje - Kontrolna grupa postaje sličnija slučajevima u pogledu izloženosti nego opšta populacija.
  • Pristrasnost opstanka - U obzir su uzete samo pstojeće stavke, a one koje više ne postoje su izuzete. Primer: O trenutnoj ekonomskoj situaciji su ispitane samo firme koje su preživele krizu, a one ugašene su izopštene iz ispitivanja.
  • Malmkistova pristrasnost - Efekat u posmatračkoj astronomiji koji dovodi do otkrivanja suštinski svetlih objekata.
  • Uzorkovanja bazirano na simptomima - Primer: Dete koje ne pokazuje zadovoljavajuće rezultate u školi ima veće šanse da bude proglašeno disleksičnim. Isto to dete ima veće šanse da bude testirano i dijagnostikovano drugim poremećajima.
  • Efekat pećinskog čoveka - Mnogi ostaci naših predaka su pronalaženi u pećinama. Da li to znači da su oni živeli samo u pećinama. Odgovor je ne. Već su pećine pogodne ze prezervaciju ovih ostataka. Primer: Slike naših predaka koje smo nalazili po pećinama. Možda su oni slikali i po drvećui stenama, ali je to drveće istrurilo ili je kiša sprala crteže sa stena.

Skraćeni izbor prilikom istraživanja naslednih karakteristika

Genetičari su ograničeni u načinu na koji mogu dobiti podatke vezane za ljudsku populaciju. Kao primer uzmite ljudsku osobinu. Zanima nas da li se karakteristika nasleđuje kao po Mendelovim zakonima. Po Mendelovim zakonima, ako roditelji u porodici nemaju karakteristiku, ali nose alel za nju, oni su nosioci. U ovom slučaju njihova deca će imati 25% šanse da pokažu karakteristike.

Problem nastaje jer ne možemo reći koje porodice imaju oba roditelja kao nosioce (heterozigotne) ako nemaju dete koje pokazuje karakteristike.

Na slici su prikazani rodoslovi svih mogućih porodica sa dvoje dece kada su roditelji nosioci (Aa).



  • Neprekidan izbor - U savršenom svetu trebali bismo biti u mogućnosti da otkrijemo sve takve porodice sa genom, uključujući i one koji su jednostavno nosioci. U ovoj situaciji analiza ne bi bila pristrasna u utvrđivanju, a rodoslovi bi bili pod „kontinalnim odabirom“. U praksi većina studija identifikuje i uključuje porodice u studiju zasnovanu na njima koje su imale pogođene pojedince.
  • Skraćeni izbor - Kada pogođene osobe imaju jednake šanse da budu uključene u studiju, to se naziva skraćenim izborom, što znači nehotično isključivanje porodica koje su nosioci gena. Budući da se izbor vrši na individualnom nivou, porodice sa dvoje ili više obolele dece imale bi veću verovatnoću da budu uključeni u istraživanje.
  • Kompletno skraćeni izbor - poseban slučaj kada svaka porodica sa pogođenim detetom ima jednake šanse da bude izabrana za potrebe istraživanja.

Verovatnoće svake porodice koja je izabrana date su na slici, a data je i učestalost uzorka pogođene dece. U ovom jednostavnom slučaju, istraživač će tražiti frekvenciju od 4/7 ili 5/8 za karakteristiku, u zavisnosti od vrste korišćene selekcije.

Problemi

Pristrasnost uzorkovanja moze dovesti do prevelikog ili premalog udela nekog parametra u okviru istrazivanja. Naravno, ako je ovaj problem minimalizovan onda se uzorak može uzeti kao pretpostavka ili čak verodostojan.

Reč pristrasnost, samo po sebi nosi negativnu konotaciju. Naravno, ponekad se ova metoda koristi za dobijanje određenih "naučnih" rezultata koje odgovaraju istraživaču i koje potvrđuju njegove hipoteze. Ali, kada pričamo o statistici ovo je samo još jedan matematički parametar, nema veze da li je uveden sa namerom ili slučajno.

Primer sa zagađenjem vazduha

U podacima o kvalitetu vazduha, zagađivači (kao što su ugljen monoksid, azot monoksid, azot dioksid ili ozon) često pokazuju visoke korelacije, jer potiču od istih hemijskih procesa. Ove korelacije zavise od prostora i vremena. Stoga distribucija zagađivača nije nužno reprezentativna za svaku lokaciju i svaki preiod. Ako se jeftini merni instrument kalabriše sa terenskim podacima na multivarijantan način, tačnije kolokacijom pored referentnog instrumenta, odnos između različith jedinjenja zaključuju se u model kalibracije. Premeštanjem mernog instrumenta mogu se dobiti pogrešni rezultati.

Korekcija

Ako je cela populacija izopštena iz nabavke uzoraka onda nema tog metoda koji može da pomogne. Ali ako su neke grupe prenaglašeni ili nedovoljno naglašene u uzorcima, i ako to može da se nekako kvantifikuje onda možemo da dodelimo "težinu" određenim uzorcima. Ovo naravno nije najbolje rešenje, bolje bi bilo da ponovo prikupimo uzorke, ali da sve grupe budu predstavljene uzimajuči u obzir njihov udeo u populaciji.

Na primer, hipotetička populacija može obuhvatati 10 miliona muškaraca i 10 miliona žena. Pretpostavimo da je pristrasni uzorak od 100 pacijenata obuhvaćao 20 muškaraca i 80 žena. Istraživač bi mogao ispraviti ovu neravnotežu dodavanjem "težine" od 2,5 za svakog muškarca i 0,625 za svaku ženu. Ovo bi prilagodilo sve procene, pa bi se postigla ista očekivana vrednost kao i uzorak koji je obuhvatio tačno 50 muškaraca i 50 žena, osim ako se muškarci i žene ne razlikuju u verovatnoći da učestvuju u istraživanju.

Reference

  1. ^ „Sampling Bias -- Medical Definition”. web.archive.org. 2016-03-10. Архивирано из оригинала 10. 03. 2016. г. Приступљено 2021-04-20. CS1 одржавање: Неподобан URL (веза)
  2. ^ „Sample bias”. TheFreeDictionary.com. Приступљено 2021-04-20. 
  3. ^ „Selection Bias definition”. web.archive.org. 2009-06-09. Архивирано из оригинала 09. 06. 2009. г. Приступљено 2021-04-20. CS1 одржавање: Неподобан URL (веза)
  4. ^ Wallace, Robert B. (2007-10-12). Maxey-Rosenau-Last Public Health and Preventive Medicine: Fifteenth Edition (на језику: енглески). McGraw Hill Professional. ISBN 978-0-07-159318-2. 
  5. ^ Wendt, Lloyd (1979). Chicago tribune : the rise of a great American newspaper. Internet Archive. Chicago : Rand McNally. ISBN 978-0-528-81826-4. 
  6. ^ „No. 1199: Gallup Poll”. www.uh.edu. Приступљено 2021-04-20.