Kontingentzia taula

Hainbat pertsonaren sexua eta ikasketa-maila jasotzen dituen kontingentzia taula (testua ingelesez), maiztasun absolutu nahiz erlatiboekin.

Estatistikan, kontingentzia taula aldagai kualitatiboei buruzko datuak biltzen dituen maiztasun-banaketa bat da, bi aldagai edo gehiago jasotzen dituena, aldagai bakoitzaren kategoriak gurutzatuz sarrera biko taula batean. Gelaska bakoitzean maiztasunak ezartzen dira, kopuru absolutuan edo erlatiboan. Errenkada eta zutabeetako baturak ere kalkulatzen dira, aldagai bakoitzaren kategorietan zenbat elementu biltzen diren (bazter-maiztasunak, alegia) zehazteko. Datuak era bateratuan azaltzeaz gainera, kontingentzia-taulak azterketa estatistikoak egiteko abiapuntu moduan erabiltzen dira askotan, hala nola aldagai estatistikoen arteko asoziazioa aztertzeko. Gehienetan, kontingentzia taulak bi aldagai kualitatibo jasotzeko erabiltzen badira ere, hiru aldagai edo gehiago bil daitezke kontingentzia-tula batean, aldagai kopuruak gora egin ahala taula irakurketa gero eta zailagoa den arren.

Kontingentzia-taulak aldagai kualitatiboetarako erabiltzen dira bereziki, non elementuak biltzen diren kategoria kopurua murritza den (adibidez, sexua, ikasketa-maila, aukera politikoa, ...). Balio ezberdin gutxi hartzen duten aldagai kuantitatiboetarako (seme-alaba kopurua, adibidez) ere erabil daitezke. Ez dira oso egokiak, ordea, aldagaiak balio ezberdin asko hartzen dituen kasuetarako (adibidez, pertsonen baten altuera edo pisua), aurretik datuak tartetan biltzen ez badira.

Hainbat teknika garatu dira kontigentzia-tauletako informazio estatistikoa aztertzeko. Horien artean, asoziazioak kontingentzia taula bateko aldagaien arteko erlazioa aztertzen du. Prozedura konplexuago batez, korrespondentzia-analisiak kontingentzia-taula batean agertzen diren kategoriak kartesiar diagrama batean ezartzen ditu, erlazionaturik dauden kategoriak elkarrengandik gertu jarriz(adibidez, emakumeek gizonek baino eskuineko joera politikoa nabarmenagoa badute, "emakume" eta "eskuin" kategoriak gertu suertatuko dira diagraman). Kontingentzia taulak independentzia estatistikoa frogatu eta homogeneotasun-frogak burutzeko oinarri ere izaten dira.

Kontingentzia taula baten eraketa

Kontingentzia taula bat eratzeko elementu zenbaiten gainean jasotako bi aldagai edo gehiago behar dira. Datu zerrenda horretatik aski da, elementuak banan banan hartu, bakoitzari dagokion gelaska ezarri eta, azkenik, gelaska bakoitzean gertatzen den elementu kopurua zenbatzea.

Ohikoa da kontigentzia taulako totalak zentzu edo aldagai batean nahiz bestea kalkulatzea. Kopuru horiek bazterreko frekuentziak dira eta gehituz, elementu kopuru totala eskuratzen da, irudiam ikusten den bezala.

Probabilitateak kontingentzia-taula batean

Probabilitateen kalkulu sinplea

Kontingentzia-taulka probabilitateak kalkulatzeko abiapuntu moduan erabili ohi dira. Gelaska bakoitzeko maiztasun absolutuak hartuta, datu kopuru totalarekiko kalkulatzen diren portzentajeak zein probabilitateri dagozkion azaltzen da ondorengo taulan:

X A / X B {\displaystyle X_{A}/X_{B}} B {\displaystyle B} B ¯ {\displaystyle {\overline {B}}} Totala
A {\displaystyle A} P [ A B ] {\displaystyle P[A\cap B]} P [ A B ¯ ] {\displaystyle P[A\cap {\overline {B}}]} P [ A ] {\displaystyle P[A]}
A ¯ {\displaystyle {\overline {A}}} P [ A ¯ B ] {\displaystyle P[{\overline {A}}\cap B]} P [ A ¯ B ¯ ] {\displaystyle P[{\overline {A}}\cap {\overline {B}}]} P [ A ¯ ] {\displaystyle P[{\overline {A}}]}
Totala P [ B ] {\displaystyle P[B]} P [ B ¯ ] {\displaystyle P[{\overline {B}}]} 1 {\displaystyle 1}

Adibidez,

Sexua\Alkohola edaten? Bai Ez Totala Bai Ez Totala
Gizona 40 80 120 0.2 0.4 0.6
Emakumea 20 60 80 0.1 0.3 0.4
Totala 60 140 200 0.3 0.7 1

Ebaketak

P [ g i z o n a b a i ] = 40 200 = 0.2 {\displaystyle P[gizona\cap bai]={\frac {40}{200}}=0.2}
P [ g i z o n a e z ] = 80 200 = 0.4 {\displaystyle P[gizona\cap ez]={\frac {80}{200}}=0.4}
P [ e m a k u m e a b a i ] = 20 200 = 0.1 {\displaystyle P[emakumea\cap bai]={\frac {20}{200}}=0.1}
P [ e m a k u m e a e z ] = 60 200 = 0.3 {\displaystyle P[emakumea\cap ez]={\frac {60}{200}}=0.3}

Probabilitate totalak

P [ g i z o n a ] = 120 200 = 0.6 {\displaystyle P[gizona]={\frac {120}{200}}=0.6}
P [ e m a k u m e a ] = 80 200 = 0.4 {\displaystyle P[emakumea]={\frac {80}{200}}=0.4}
P [ b a i ] = 60 200 = 0.3 {\displaystyle P[bai]={\frac {60}{200}}=0.3}
P [ e z ] = 140 200 = 0.7 {\displaystyle P[ez]={\frac {140}{200}}=0.7}

Probabilitate hauetatik baldintzapeko probabilitateak kalkula daitezke, baina taulatik zuzenean ere kalkula daitezke. Adibidez, jakinda pertsona batek alkohola edaten duela, gizona izateko probabilitatea honela kalkulatzen da:

P [ g i z o n a / b a i ] = P [ g i z o n a b a i ] P [ b a i ] = 0.2 0.3 = 0.66 {\displaystyle P[gizona/bai]={\frac {P[gizona\cap bai]}{P[bai]}}={\frac {0.2}{0.3}}=0.66}

Zuzenean, berriz, honela kalkulatuko litzateke: P [ g i z o n a / b a i ] = 40 60 = 0.66 {\displaystyle P[gizona/bai]={\frac {40}{60}}=0.66}

Fisherren froga zehatza

Sakontzeko, irakurri: «Fisherren froga zehatz»

Probabilitate kalkulua kontingentzia taulan jasotako aldagaien artean independentzia dagoen frogatzeko erabiltzen da Fisherren froga zehatzaren bitartez. Adibidez, hainbat gizon eta emakumeri alkohola edan ohi duten galdetu eta erantzunak kontingentzia taula honetan bildu dira:

Sexua\Alkohola edaten? Bai Ez Totala
Gizona 4 8 12
Emakumea 2 6 8
Totala 6 14 20

Froga estatistikoa burutzeko bazter-maiztasunak balio finkotzat hartuta, bi aldagaietako maiztasun gurutzatuak suertatzeko probabilitatea kalkulatu behar da koefiziente binomialak eta banaketa hipergeometrikoa erabiliz, betiere hipotesi nulutzat independentzia eta zorizkotasuna hartzen badira. Adibidez, 20 pertsonako multzo batean 6 alkohol edale eta 14 ez-edale eta 12 gizon eta 8 emakume daudelarik, zenbat da, erabateko independentzia izanda, hots, pertsonak horiek gelasketan zehar zoriz banatzen direlarik, 2 gizon eta 6 emakume suertatzeko probabilitatea?

P [ 2   g i z o n 6   e m a k u m e ] = ( 6 2 ) ( 14 6 ) ( 20 8 ) = 0.35 {\displaystyle P[2\ gizon\cap 6\ emakume]={\frac {{6 \choose 2}{14 \choose 6}}{20 \choose 8}}=0.35}

Froga estatistiko batean gertatutakoaren probabilitatea hipotesi nulupean kalkulatu eta aurrez ezarritako adierazgarritasun-maila batekin alderatu behar da. Horren aurretik, ordea, gertatutakoarena bezainbateko probabilitatea eta probabilitate txikiagoa duten aukeren probabilitateak ere gehitu behar zaizkio gertatutakoaren probabilitateari. Kasu honetan,

P [ 1   g i z o n 7   e m a k u m e ] = ( 6 2 ) ( 14 6 ) ( 20 8 ) = 0.16 {\displaystyle P[1\ gizon\cap 7\ emakume]={\frac {{6 \choose 2}{14 \choose 6}}{20 \choose 8}}=0.16}
P [ 2   g i z o n 6   e m a k u m e ] = ( 6 2 ) ( 14 6 ) ( 20 8 ) = 0.02 {\displaystyle P[2\ gizon\cap 6\ emakume]={\frac {{6 \choose 2}{14 \choose 6}}{20 \choose 8}}=0.02}

Gertatukoaren eta horri erantsi zaizkion gertakizun guztien probabilitateen batura 0.35+0.16+0.02=0.53. Adierazgarritasun maila %10 finkatu bada, 0.53>0.1 betetzen denez, independentziaren hipotesia baztertzeko arrazoirik ez dago eta beraz, onartu egin daiteke sexuaren eta alkohol kontsumoaren artean ez dagoela asoziaziorik.

Notazioa

Kontingentzia tauletan oinarrituako metodo estatistikoak garatzeko, notazio hau jarraitzen da:

x I / x J {\displaystyle x_{I}/x_{J}} 1 {\displaystyle 1} 2 {\displaystyle 2} {\displaystyle \ldots } j {\displaystyle j} {\displaystyle \ldots } J {\displaystyle J} Bazter maiztasunak
1 {\displaystyle 1} n 11 {\displaystyle n_{11}} n 12 {\displaystyle n_{12}} {\displaystyle \ldots } n 1 j {\displaystyle n_{1j}} {\displaystyle \ldots } n 1 J {\displaystyle n_{1J}} n 1. {\displaystyle n_{1.}}
2 {\displaystyle 2} n 21 {\displaystyle n_{21}} n 22 {\displaystyle n_{22}} {\displaystyle \ldots } n 2 j {\displaystyle n_{2j}} {\displaystyle \ldots } n 2 J {\displaystyle n_{2J}} n 2. {\displaystyle n_{2.}}
{\displaystyle \vdots } {\displaystyle \vdots } {\displaystyle \vdots } {\displaystyle \ddots } {\displaystyle \ddots } {\displaystyle \ddots } {\displaystyle \vdots } {\displaystyle \vdots }
i {\displaystyle i} {\displaystyle \vdots } {\displaystyle \vdots } {\displaystyle \ddots } n i j {\displaystyle n_{ij}} {\displaystyle \ddots } {\displaystyle \vdots } n i . {\displaystyle n_{i.}}
{\displaystyle \vdots } {\displaystyle \vdots } {\displaystyle \vdots } {\displaystyle \ddots } {\displaystyle \ddots } {\displaystyle \ddots } {\displaystyle \vdots } {\displaystyle \vdots }
J {\displaystyle J} n I 1 {\displaystyle n_{I1}} n I 2 {\displaystyle n_{I2}} {\displaystyle \ldots } n I j {\displaystyle n_{Ij}} {\displaystyle \ldots } n I J {\displaystyle n_{IJ}} n I . {\displaystyle n_{I.}}
Bazter maiztasunak n .1 {\displaystyle n_{.1}} n .2 {\displaystyle n_{.2}} {\displaystyle \ldots } n . j {\displaystyle n_{.j}} {\displaystyle \ldots } n . J {\displaystyle n_{.J}} n . . {\displaystyle n_{..}}

Beste alde batetik, ij bakoitzeko maiztasun erlatiboari p i j {\displaystyle p_{ij}} . izendatzen da eta gelaska bakoitzeko probabilitateari, parametro estatistiko ezezagun moduan, π i j {\displaystyle \pi _{ij}} .

Aldagai kualitatiboen arteko independentzia

Kontingentzia taulak bi aldagaien arteko independentzia estatistikoa edo inongo loturarik eza egiaztatzeko erabil daitezke. Taulako bi aldagaiek elkarrekiko independentzia estatistikoa dute baldin eta:

i , j     n i j = n i . n . j n . . {\displaystyle \forall {i,j}\ \ n_{ij}={\frac {n_{i.}n_{.j}}{n_{..}}}}

ni.n.j / n.. balioei maiztasun teoriko deritze eta, bazter-maiztasunak hartuta, independentzia estatistikoaren kasuan suertatuko liratekeen maiztasunak dira. Beraz, independentzia izateko maiztasun teorikoak (ni.n.j / n..) eta maiztasun enpirikoak (nij) berdinak izan behar dira. Adibidez:


Sexua\Alkohola edaten? Bai Ez Totala
Gizona 40 80 120
Emakumea 30 60 90
Totala 70 140 210

  • 40 = 70 × 120 210   ;     80 = 140 × 120 210 {\displaystyle 40={\frac {70\times 120}{210}}\ ;\ \ 80={\frac {140\times 120}{210}}}


  • 30 = 70 × 90 210     ;     60 = 70 × 90 210 {\displaystyle 30={\frac {70\times 90}{210}}\ \ ;\ \ 60={\frac {70\times 90}{210}}}

Erabateko independentzia ez da egoera arrunta praktikan eta teorikoki bakarrik aztertzen da. Esaterako, maiztasun teorikoak asoziazio estatistikoa neurtzeko oinarri moduan erabiliko dira: maiztasun enpirikoak edo errealak zenbat eta gehiago aldendu erlatiboki maiztasun teorikoetatik, orduan eta asoziazio sendoagoa izango da.

Adibidez, honako kontingentzia-taula honetan bi aldagaiak elkarrekiko inpendenteak


Independentzia estatistikoa baldintzapeko probabilitateak ikertuz ere azter daiteke. Adibidez, hurrengo taulan pertsona bat gizona edo emakumea den jakiteak ez ditu aldatzen alkohola edateko eta ez edateko probabilitateak eta, ondorioz, sexua eta alkoholaren kontsumoa (bai/ez) elkarrekiko independenteak dira:

Sexua\Alkohola edaten? Bai Ez Totala Bai Ez Totala
Gizona 40 80 120 P(bai/gizon)=40/120=0.333 P(ez/gizon)=80/120=0.666 1
Emakumea 30 60 90 P(bai/emakume)=30/90=0.333 P(ez/emakume)=60/90=0.666 1
Totala 70 140 210 P(bai)=70/210=0.33 P(ez)=140/210=0.66 1

Kanpo estekak

Autoritate kontrola
  • Wikimedia proiektuak
  • Wd Datuak: Q1541178
  • Commonscat Multimedia: Contingency tables / Q1541178

  • Identifikadoreak
  • BNF: 126489252 (data)
  • LCCN: sh85031560
  • Wd Datuak: Q1541178
  • Commonscat Multimedia: Contingency tables / Q1541178