Punktbiseriale Korrelation

Als punktbiseriale Korrelation wird der Korrelationskoeffizient für den Zusammenhang zwischen einem intervallskalierten Merkmal I {\displaystyle I} und einem dichotomen (bernoulliverteilten) Merkmal D {\displaystyle D} bezeichnet. Es handelt sich nicht um eine eigenständige Maßzahl, sondern um einen Spezialfall des gewöhnlichen Korrelationskoeffizienten nach Pearson, der in diesem Fall berechnet werden kann als

ρ = I ¯ D = 1 I ¯ D = 0 Q S ( I ) n p q {\displaystyle \rho ={\frac {{\overline {I}}_{D=1}-{\overline {I}}_{D=0}}{\sqrt {\mathrm {QS} (I)}}}\cdot {\sqrt {n\cdot p\cdot q}}} ,

wobei Q S {\displaystyle \mathrm {QS} } die Quadratsumme, n {\displaystyle n} den Stichprobenumfang, p {\displaystyle p} den Anteil der Untersuchungseinheiten mit der in D erfassten Eigenschaft und q {\displaystyle q} den Anteil der Untersuchungseinheiten ohne die in D erfasste Eigenschaft bezeichnet.

Herleitung aus der Pearson-Korrelation

Der Einfachheit halber wird angenommen, dass das dichotome Merkmal D {\displaystyle D} die Werte 0 und 1 annimmt, sodass der Mittelwert in D {\displaystyle D} gleich p {\displaystyle p} ist. Nach der allgemeinen Formel berechnet sich die Korrelation zwischen I {\displaystyle I} und D {\displaystyle D} über

ρ = i = 1 n ( I i I ¯ ) ( D i D ¯ ) Q S ( I ) Q S ( D ) {\displaystyle \rho ={\frac {\sum _{i=1}^{n}(I_{i}-{\bar {I}})(D_{i}-{\bar {D}})}{\sqrt {\mathrm {QS} (I)\cdot \mathrm {QS} (D)}}}} .

Man kann nun eine Fallunterscheidung treffen: n p {\displaystyle n\cdot p} Untersuchungseinheiten sind D=1 und liegen mit 1 p = q {\displaystyle 1-p=q} über dem Mittelwert in D, die übrigen n q {\displaystyle n\cdot q} Untersuchungseinheiten sind D=0 und liegen mit 0 p = p {\displaystyle 0-p=-p} unter dem Mittelwert in D. Damit gilt

ρ = n p ( I ¯ D = 1 I ¯ ) q + n q ( I ¯ D = 0 I ¯ ) ( p ) Q S ( I ) ( n p q 2 + n q ( p ) 2 ) {\displaystyle \rho ={\frac {n\cdot p\cdot ({\bar {I}}_{D=1}-{\bar {I}})\cdot q+n\cdot q\cdot ({\bar {I}}_{D=0}-{\bar {I}})\cdot (-p)}{\sqrt {\mathrm {QS} (I)\cdot (n\cdot p\cdot q^{2}+n\cdot q\cdot (-p)^{2})}}}} ,

was sich über

ρ = n p q ( I ¯ D = 1 I ¯ D = 0 ) Q S ( I ) ( n p q ) {\displaystyle \rho ={\frac {n\cdot p\cdot q\cdot ({\bar {I}}_{D=1}-{\bar {I}}_{D=0})}{\sqrt {\mathrm {QS} (I)\cdot (n\cdot p\cdot q)}}}}

zur obigen Gleichung vereinfachen lässt.

Anwendung in gängiger Statistiksoftware

SPSS und R verwenden automatisch die punktbiseriale Rechenweise, wenn die Befehle CORRELATE bzw. cor, cor.test angefordert werden und eine der Variablen nur zwei Ausprägungen (z. B. die Werte 0 und 1) hat, die auch als berechnungsrelevant angesehen werden (−7 oder 99 z. B. können in SPSS als fehlende Werte markiert und somit ignoriert werden).

Literatur

  • Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6. Auflage. Springer, Berlin u. a. 2005, ISBN 3-540-21271-X.
  • J. Cohen, P. Cohen, S. G. West, L. S. Aiken: Applied Multiple Regression / Correlation Analysis For The Behavioral Sciences. London 2003, ISBN 0-8058-2223-2.