Punt-biseriële correlatiecoëfficiënt

De punt-biseriële correlatiecoëfficiënt is een correlatiecoëfficiënt die gebruikt wordt als een van de stochastische variabelen dichotoom is, dat wil zeggen slechts twee verschillende waarden kan aannemen. Het dichotome karakter kan natuurlijk zijn, zoals bij geslacht of al of niet een ziekte hebben, maar kan ook kunstmatig aangebracht zijn, zoals bij de indeling jong of oud.

De punt-biseriële correlatiecoëfficiënt is in feite niets anders dan de gewone Pearsons product-momentcorrelatiecoëfficiënt voor het geval dat een van de variabelen continu is en de andere dichotoom.

We moeten weer onderscheid maken tussen de correlatiecoëfficiënt als parameter in de populatieverdeling en de correlatiecoëfficiënt als schatter uit de steekproef voor deze parameter.

Populatie

Het uitgangspunt is een simultane verdeling van de stochastische variabelen X {\displaystyle X} en Y {\displaystyle Y} , waarvan Y {\displaystyle Y} dichotoom is. Voor het gemak neemt men aan dat Y {\displaystyle Y} de waarden 0 en 1 aanneemt. Het resultaat is voor alle andere waarden van Y {\displaystyle Y} hetzelfde. De populatie kan opgedeeld gedacht worden in twee subpopulaties, een waarvoor Y = 0 {\displaystyle Y=0} en een waarvoor Y = 1 {\displaystyle Y=1} . De populatiegemiddelden van X {\displaystyle X} in deze subpopulaties zijn respectievelijk μ 0 {\displaystyle \mu _{0}} en μ 1 {\displaystyle \mu _{1}} , dus:

μ y = E ( X | Y = y ) {\displaystyle \mu _{y}=E(X|Y=y)}

Stel verder dat

p = P ( Y = 1 ) {\displaystyle p=P(Y=1)}

Dan is:

E X = E ( X | Y = 0 ) ( 1 p ) + E ( X | Y = 1 ) p = μ 0 ( 1 p ) + μ 1 p {\displaystyle EX=E(X|Y=0)(1-p)+E(X|Y=1)p=\mu _{0}(1-p)+\mu _{1}p}
E Y = E p {\displaystyle EY=Ep}
v a r ( Y ) = p ( 1 p ) {\displaystyle \mathrm {var} (Y)=p(1-p)}

en

c o v ( X , Y ) = E ( X Y ) E X E Y = {\displaystyle \mathrm {cov} (X,Y)=E(XY)-EXEY=}
= E ( X Y | Y = 0 ) ( 1 p ) + E ( X Y | Y = 1 ) p E X p = {\displaystyle =E(XY|Y=0)(1-p)+E(XY|Y=1)p-EXp=}
= μ 1 p ( μ 0 ( 1 p ) + μ 1 p ) p = ( μ 1 μ 0 ) p ( 1 p ) {\displaystyle =\mu _{1}p-(\mu _{0}(1-p)+\mu _{1}p)p=(\mu _{1}-\mu _{0})p(1-p)}

Dus

ρ ( X , Y ) = c o v ( X , Y ) σ X σ Y = μ 1 μ 0 σ X p ( 1 p ) {\displaystyle \rho (X,Y)={\frac {\mathrm {cov} (X,Y)}{\sigma _{X}\sigma _{Y}}}={\frac {\mu _{1}-\mu _{0}}{\sigma _{X}}}{\sqrt {p(1-p)}}}

Steekproef

Voor een (aselecte) steekproef van omvang n {\displaystyle n} van paren waarnemingen ( X i , Y i ) {\displaystyle (X_{i},Y_{i})} , waarin Y {\displaystyle Y} dichotoom is (voor het gemak weer met de waarden 0 en 1), berekent men de punt-biseriële correlatiecoëfficiënt r pb {\displaystyle r_{\text{pb}}} als:

r pb = X ¯ 1 X ¯ 0 S X N 1 ( n N 1 ) n ( n 1 ) {\displaystyle r_{\text{pb}}={\frac {{\overline {X}}_{1}-{\overline {X}}_{0}}{S_{X}}}{\sqrt {\frac {N_{1}(n-N_{1})}{n(n-1)}}}} ,

waarin N 1 {\displaystyle N_{1}} het aantal paren met Y = 1 {\displaystyle Y=1} is en X ¯ 0 {\displaystyle {\overline {X}}_{0}} en X ¯ 1 {\displaystyle {\overline {X}}_{1}} respectievelijk de steekproefgemiddelden van de X {\displaystyle X} -waarden bij Y = 0 {\displaystyle Y=0} en Y = 1 {\displaystyle Y=1} voorstellen. De grootheid S X {\displaystyle S_{X}} is de steekproefstandaardafwijking van de X {\displaystyle X} -waarden.

Afleiding:

X = X ¯ 0 ( n N 1 ) + X ¯ 1 N 1 {\displaystyle \sum X={\overline {X}}_{0}(n-N_{1})+{\overline {X}}_{1}N_{1}}
Y = N 1 {\displaystyle \sum Y=N_{1}}
X Y = X ¯ 1 N 1 {\displaystyle \sum XY={\overline {X}}_{1}N_{1}}
S Y = N 1 ( n N 1 ) n ( n 1 ) {\displaystyle \mathrm {S} _{Y}={\sqrt {\frac {N_{1}(n-N_{1})}{n(n-1)}}}}

zodat:

r p b = r X , Y = n X Y X Y n ( n 1 ) S X S Y = X ¯ 1 X ¯ 0 S X N 1 ( n N 1 ) n ( n 1 ) , {\displaystyle r_{pb}=r_{X,Y}={\frac {n\sum XY-\sum X\sum Y}{n(n-1)S_{X}S_{Y}}}={\frac {{\overline {X}}_{1}-{\overline {X}}_{0}}{S_{X}}}{\sqrt {\frac {N_{1}(n-N_{1})}{n(n-1)}}},}

Variantie-analyse

De steekproefvariantie S X 2 {\displaystyle S_{X}^{2}} kan als volgt uiteengelegd worden:

( n 1 ) S X 2 = ( X k X ¯ ) 2 = Y = 1 ( X k X ¯ ) 2 + Y = 0 ( X k X ¯ ) 2 = {\displaystyle (n-1)S_{X}^{2}=\sum (X_{k}-{\overline {X}})^{2}=\sum _{Y=1}(X_{k}-{\overline {X}})^{2}+\sum _{Y=0}(X_{k}-{\overline {X}})^{2}=}
Y = 1 ( X k X ¯ 1 + X ¯ 1 X ¯ ) 2 + Y = 0 ( X k X ¯ 0 + X ¯ 0 X ¯ ) 2 = {\displaystyle \sum _{Y=1}(X_{k}-{\overline {X}}_{1}+{\overline {X}}_{1}-{\overline {X}})^{2}+\sum _{Y=0}(X_{k}-{\overline {X}}_{0}+{\overline {X}}_{0}-{\overline {X}})^{2}=}
Y = 1 ( X k X ¯ 1 ) 2 + Y = 1 ( X ¯ 1 X ¯ ) 2 + Y = 0 ( X k X ¯ 0 ) 2 + Y = 0 ( X ¯ 0 X ¯ ) 2 = {\displaystyle \sum _{Y=1}(X_{k}-{\overline {X}}_{1})^{2}+\sum _{Y=1}({\overline {X}}_{1}-{\overline {X}})^{2}+\sum _{Y=0}(X_{k}-{\overline {X}}_{0})^{2}+\sum _{Y=0}({\overline {X}}_{0}-{\overline {X}})^{2}=}
( N 1 1 ) S 1 2 + N 1 ( X ¯ 1 X ¯ ) 2 + ( N 0 1 ) S 0 2 + N 0 ( X ¯ 0 X ¯ ) 2 = {\displaystyle (N_{1}-1)S_{1}^{2}+N_{1}({\overline {X}}_{1}-{\overline {X}})^{2}+(N_{0}-1)S_{0}^{2}+N_{0}({\overline {X}}_{0}-{\overline {X}})^{2}=}
( n 2 ) S p 2 + N 0 N 1 n ( X ¯ 1 X ¯ 0 ) 2 {\displaystyle (n-2)S_{p}^{2}+{\frac {N_{0}N_{1}}{n}}({\overline {X}}_{1}-{\overline {X}}_{0})^{2}}

zodat:

r p b 2 = N 0 N 1 n ( X ¯ 1 X ¯ 0 ) 2 ( n 2 ) S p 2 + N 0 N 1 n ( X ¯ 1 X ¯ 0 ) 2 , {\displaystyle r_{pb}^{2}={\frac {{\frac {N_{0}N_{1}}{n}}({\overline {X}}_{1}-{\overline {X}}_{0})^{2}}{(n-2)S_{p}^{2}+{\frac {N_{0}N_{1}}{n}}({\overline {X}}_{1}-{\overline {X}}_{0})^{2}}},}

Daaruit b;ijkt enerzijds nog eens dat de waarde van r pb {\displaystyle r_{\text{pb}}} tussen -1 en 1 ligt, en anderzijds dat de punt-biseriële correlatiecoëfficiënt in feite niets anders doet dan de variantie tussen de beide groepen vergelijken met de variantie binnen de groepen.

Externe links

  • (en) meer informatie