Kanonische Korrelation

Die kanonische Korrelationsanalyse bezeichnet eine statistische Methode der multivariaten Statistik zur Analyse der Abhängigkeit zweier Zufallsvektoren X {\displaystyle X} und Y {\displaystyle Y} . Außerdem ermöglicht sie diese Beziehungen bei hoch-dimensionalen Daten in eine geringere Anzahl von Statistiken zusammenzufassen.

Die Idee hinter der kanonischen Korrelationsanalyse ist Folgende: Man sucht ein Paar an Linearkombinationen ( a , b ) {\displaystyle (a,b)} , genannt kanonischen Variablen, welches die größte Korrelation

corr ( a T X , b T Y ) {\displaystyle \operatorname {corr} (a^{T}X,b^{T}Y)}

besitzt. Diese Verallgemeinerung der Korrelation nennt man kanonische Korrelation. Das Verfahren wird dann wiederholt, so dass die nächsten Linearkombinationen zusätzlich unkorreliert zu den vorherigen Linearkombination ist.[1][2]

Die kanonische Korrelationsanalyse wurde im Jahr 1935 von Harold Hotelling eingeführt[3][4].

Ziele

Strukturentdeckung

Da primär als Instrument der explorativen Statistik entwickelt, dient sie in erster Linie der Aufdeckung interessanter Strukturen in den Daten, hier der Aufdeckung interessanter Beziehungen zwischen Mengen von Variablen in einem gegebenen Datensatz. Im Gegensatz zum einfachen Bravais-Pearson-Korrelationskoeffizienten interessiert nicht die Abhängigkeit zwischen zwei einzelnen Variablen, sondern zwischen zwei Sätzen von Variablen[5].

Dimensionsreduktion

Ein weiteres Einsatzgebiet der kanonischen Korrelationsanalyse ist die Reduzierung der Dimension des untersuchten Datensatzes durch die Verwendung der kanonischen Variablen mit der höchsten Korrelation anstatt der ursprünglichen, den kanonischen Variablen zugrundeliegenden Variablen. Wichtig ist, dass die kanonischen Variablen gut und möglichst eindeutig interpretierbar sind[6], da es durch die Ersetzung der ursprünglichen Variablen sonst zu Interpretationsproblemen kommt.

Vorgehen

Untersucht werden zwei Mengen von Zufallsvariablen X = ( X 1 , , X p ) T {\displaystyle X=(X_{1},\ldots ,X_{p})^{\mathrm {T} }} und Y = ( Y 1 , , Y q ) T {\displaystyle Y=(Y_{1},\ldots ,Y_{q})^{\mathrm {T} }} .

Das Ziel der (linearen) kanonischen Korrelationsanalyse ist die Aufdeckung geeigneter kanonischer Variablen, d. h. geeigneter Linearkombinationen der Variablen jeweils einer Variablenmenge. Aus den kanonischen Variablen wird der kanonische Korrelationskoeffizient bestimmt, der den Grad der wechselseitigen linearen Abhängigkeit zwischen den kanonischen Variablen und damit zwischen den Sätzen von Zufallsvariablen angibt.

Man betrachtet die Linearkombinationen

A 1 = u 1 X 1 + u 2 X 2 + + u p X p = u T X {\displaystyle A_{1}=u_{1}X_{1}+u_{2}X_{2}+\ldots +u_{p}X_{p}=u^{\mathrm {T} }X}

und

B 1 = v 1 Y 1 + v 2 Y 2 + + v q Y q = v T Y {\displaystyle B_{1}=v_{1}Y_{1}+v_{2}Y_{2}+\ldots +v_{q}Y_{q}=v^{\mathrm {T} }Y} .

Gesucht werden diejenigen Gewichtungsvektoren u {\displaystyle u} und v {\displaystyle v} , die die Korrelation zwischen A 1 {\displaystyle A_{1}} und B 1 {\displaystyle B_{1}} maximieren, das heißt für

ρ ( u , v ) := ρ A 1 , B 1 = corr ( A 1 , B 1 ) {\displaystyle \rho (u,v):=\rho _{A_{1},B_{1}}=\operatorname {corr} (A_{1},B_{1})}

suchen wir

a r g m a x u , v ρ ( u , v ) . {\displaystyle {\underset {u,v}{\operatorname {arg\,max} }}\;\rho (u,v).}

Sei

Cov ( X Y ) = ( Σ X X Σ X Y Σ Y X Σ Y Y ) , {\displaystyle \operatorname {Cov} {\begin{pmatrix}X\\Y\end{pmatrix}}={\begin{pmatrix}\Sigma _{XX}&\Sigma _{XY}\\\Sigma _{YX}&\Sigma _{YY}\end{pmatrix}},}

dann optimieren wir

ρ A 1 , B 1 = u T Σ X Y v ( u T Σ X X u ) 1 / 2 ( v T Σ Y Y v ) 1 / 2 {\displaystyle \rho _{A_{1},B_{1}}={\frac {u^{\mathrm {T} }\Sigma _{XY}v}{(u^{\mathrm {T} }\Sigma _{XX}u)^{1/2}(v^{\mathrm {T} }\Sigma _{YY}v)^{1/2}}}}

Durch Skalierung können wir auch folgendes Optimierungsproblem mit Nebenbedingung lösen

a r g m a x u , v u T Σ X Y v mit u T Σ X X u = v T Σ Y Y v = 1. {\displaystyle {\underset {u,v}{\operatorname {arg\,max} }}\;u^{\mathrm {T} }\Sigma _{XY}v\quad {\text{mit}}\quad u^{\mathrm {T} }\Sigma _{XX}u=v^{\mathrm {T} }\Sigma _{YY}v=1.}

Hat man nun das erste Paar an kanonischer Variablen ( A 1 , B 1 ) {\displaystyle (A_{1},B_{1})} gefunden, so wiederholt man das Prozedere sukzessiv mit der zusätzlichen Bedingung für den k {\displaystyle k} -ten Schritt, dass ( A k , B k ) {\displaystyle (A_{k},B_{k})} unkorreliert zu den 1 , , k 1 {\displaystyle 1,\dots ,k-1} Paaren ist. Konkret bedeutet dies für das zweite Paar, das zusätzlich

Cov ( A 1 , A 2 ) = Cov ( B 1 , B 2 ) = 0 und Cov ( A 1 , B 2 ) = Cov ( B 1 , A 2 ) = 0 {\displaystyle \operatorname {Cov} (A_{1},A_{2})=\operatorname {Cov} (B_{1},B_{2})=0\quad {\text{und}}\quad \operatorname {Cov} (A_{1},B_{2})=\operatorname {Cov} (B_{1},A_{2})=0}

gelten muss.

Das Ziel ist die maximale Kovarianzaufklärung (ähnlich der Hauptkomponentenanalyse, die die sukzessiv maximale Varianzaufklärung zum Ziel hat). Die Korrelation zwischen dem k {\displaystyle k} -ten Paar, nennt man k {\displaystyle k} -te kanonische Korrelation. Insgesamt können min ( p , q ) {\displaystyle \min(p,q)} Faktorenpaare extrahiert werden, da maximal so viel Faktoren extrahiert werden können, wie Variablen in einer Gruppe vorhanden sind.[7]

Kennwerte

Zur Beurteilung der Lösung können verschiedene Kennwerte errechnet werden.

Redundanzmaße

Redundanzmaße geben an wie überflüssig (redundant) eine Erhebung bzw. ein Variablensatz ist, wenn die Beobachtungen aus dem zweiten Variablensatz bekannt sind. Anders ausgedrückt, Redundanzmaße besagen, wie viel Varianz eines Variablensatzes durch den jeweils anderen Variablensatz erklärt wird.

Eigenschaften

Per Konstruktion sind die kanonischen Korrelationskoeffizienten nicht-negativ und der Wertebereich ist somit [ 0 , 1 ] {\displaystyle [0,1]} , im Fall p = q = 1 {\displaystyle p=q=1} gilt

| corr ( X , Y ) | = | corr ( a T X , b T Y ) | , a , b 0. {\displaystyle |\operatorname {corr} (X,Y)|=|\operatorname {corr} (a^{T}X,b^{T}Y)|,\quad \forall a,b\neq 0.}

Zusammenhang mit anderen Verfahren

Viele andere multivariate Verfahren sind Spezialfälle der kanonischen Korrelationsanalyse oder stehen in engem Zusammenhang zu ihr.

Besteht eine Variablenmenge aus nur einer einzigen Variablen, entspricht der kanonische Korrelationskoeffizient dem multiplen Korrelationskoeffizienten. Bestehen beide Mengen jeweils aus nur einer Variablen, sind kanonischer Korrelationskoeffizient und Absolutwert des einfachen (Bravais-Pearson-)Korrelationskoeffizienten identisch[5].

Das Modell der kanonischen Korrelationsanalyse kann als Pfadmodell mit zwei latenten Variablen und den jeweiligen Indikatorsätzen X bzw. Y gesehen werden[8].

Ist die Richtung des Zusammenhangs zwischen den Variablensätzen aus theoretischen Überlegungen bekannt, so ist eine multiple lineare Regression einsetzbar, d. h. eine Regressionsanalyse mit mehreren abhängigen Variablen.

Auch Faktorenanalyse, Diskriminanzanalyse, Varianzanalyse und viele andere multivariate Verfahren stehen in engem Zusammenhang mit der kanonischen Korrelationsanalyse.

Anwendung

Anwendung findet die kanonische Korrelationsanalyse z. B. bei der Analyse latenter Variablen, die durch mehrere messbare Variablen operationalisiert werden[4]. Ein Beispiel ist die Messung des Zusammenhangs der Ergebnisse eines Persönlichkeitstests mit denen eines Leistungstests.

Prozeduren zur kanonischen Korrelationsanalyse sind in vielen Statistikprogrammen integriert, z. B. in GNU R mittels der Funktion cancor() aus dem Paket stats.

Einzelnachweise

  1. W. Härdle, L. Simar: Applied Multivariate Statistical Analysis. 2. Auflage. Springer, 2007, S. 321. 
  2. Horst Rinne: Taschenbuch der Statistik. 3. Auflage. Verlag Harri Deutsch, 2003, S. 84. 
  3. H. Hotelling: The most predictable criterion. In: Journal of Educational Psychology. Band 26, 1935, S. 139–142. 
  4. a b Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6. Auflage. Springer, 2005, S. 627. 
  5. a b Werner Voß: Taschenbuch der Statistik. 1. Auflage. Fachbuchverlag Leipzig, 2000, S. 516. 
  6. Horst Rinne: Taschenbuch der Statistik. 3. Auflage. Verlag Harri Deutsch, 2003, S. 700. 
  7. Richard A. Johnson und Dean W. Wichern: Applied Multivariate Statistical Analysis. Hrsg.: Pearson. 2007, ISBN 978-0-13-187715-3, S. 539–575. 
  8. Bernd Rönz, Hans G. Strohe: Lexikon Statistik. Gabler Wirtschaft, 1994, S. 175.