Analisi della correlazione canonica

In statistica, l'analisi della correlazione canonica (CCA nell'acronimo inglese) è un metodo per inferire informazioni da matrici di covarianza incrociata. Dati due vettori di variabili aleatorie X = ( X 1 , , X n ) {\textstyle X=(X_{1},\ldots ,X_{n})} e Y = ( Y 1 , , Y m ) {\textstyle Y=(Y_{1},\ldots ,Y_{m})} con correlazioni fra di esse, la CCA mira a trovare combinazioni lineari di X {\displaystyle X} e Y {\displaystyle Y} che presentino la massima correlazione fra loro[1]. Il metodo è stato proposto per primo da Harold Hotelling nel 1936, sebbene l'idea fosse presente già nel 1875 in una pubblicazione[2] del matematico Camille Jordan.

Definizione

Dati due vettori colonna X = ( x 1 , , x n ) {\displaystyle X=(x_{1},\dots ,x_{n})'} e Y = ( y 1 , , y m ) {\displaystyle Y=(y_{1},\dots ,y_{m})'} di variabili aleatorie, si definisce la covarianza incrociata Σ X Y = cov ( X , Y ) {\displaystyle \Sigma _{XY}=\operatorname {cov} (X,Y)} come matrice n × m {\displaystyle n\times m} il cui elemento ( i , j ) {\displaystyle (i,j)} è la covarianza cov ( x i , y j ) {\displaystyle \operatorname {cov} (x_{i},y_{j})} . Nella pratica, si stima la matrice di covarianza in base a dati campionati da X {\displaystyle X} e Y {\displaystyle Y} (ossia da una coppia di matrici di dati).

La CCA parte dalla ricerca dei vettori a {\displaystyle a} ( a R n {\displaystyle a\in \mathbb {R} ^{n}} ) e b {\displaystyle b} ( b R m {\displaystyle b\in \mathbb {R} ^{m}} ) tali che le variabili aleatorie a T X {\displaystyle a^{T}X} e b T Y {\displaystyle b^{T}Y} massimizzino la correlazione ρ = corr ( a T X , b T Y ) {\displaystyle \rho =\operatorname {corr} (a^{T}X,b^{T}Y)} . Le variabili aleatorie U = a T X {\displaystyle U=a^{T}X} e V = b T Y {\displaystyle V=b^{T}Y} costituiscono la prima coppia di variabili canoniche. Si cercano in seguito i vettori che massimizzano la stessa correlazione con il vincolo aggiuntivo di non essere correlati con la prima coppia di variabili canoniche; si definisce così la seconda coppia di variabili canoniche.

Tale procedura può essere ripetuta fino a min { m , n } {\displaystyle \min\{m,n\}} volte.

( a , b ) = argmax a , b corr ( a T X , b T Y ) {\displaystyle (a',b')={\underset {a,b}{\operatorname {argmax} }}\operatorname {corr} (a^{T}X,b^{T}Y)}

Note

  1. ^ (EN) Canonical Correlation Analysis, Springer, 2007, pp. 321–330, DOI:10.1007/978-3-540-72244-1_14, ISBN 978-3-540-72244-1. URL consultato il 16 marzo 2022.
  2. ^ Camille Jordan, Essai sur la géométrie à n dimensions, in Bulletin de la Société mathématique de France, vol. 2, 1875, pp. 103–174, DOI:10.24033/bsmf.90. URL consultato il 16 marzo 2022.
  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica