Analisi della correlazione canonica

metodo d'inferenza di informazioni dalle matrici di covarianza

In statistica, l'analisi della correlazione canonica (CCA nell'acronimo inglese) è un metodo per inferire informazioni da matrici di covarianza incrociata. Dati due vettori di variabili aleatorie e con correlazioni fra di esse, la CCA mira a trovare combinazioni lineari di e che presentino la massima correlazione fra loro[1]. Il metodo è stato proposto per primo da Harold Hotelling nel 1936, sebbene l'idea fosse presente già nel 1875 in una pubblicazione[2] del matematico Camille Jordan.

Definizione modifica

Dati due vettori colonna   e   di variabili aleatorie, si definisce la covarianza incrociata   come matrice   il cui elemento   è la covarianza  . Nella pratica, si stima la matrice di covarianza in base a dati campionati da   e   (ossia da una coppia di matrici di dati).

La CCA parte dalla ricerca dei vettori   ( ) e   ( ) tali che le variabili aleatorie   e   massimizzino la correlazione  . Le variabili aleatorie   e   costituiscono la prima coppia di variabili canoniche. Si cercano in seguito i vettori che massimizzano la stessa correlazione con il vincolo aggiuntivo di non essere correlati con la prima coppia di variabili canoniche; si definisce così la seconda coppia di variabili canoniche.

Tale procedura può essere ripetuta fino a   volte.

 

Note modifica

  1. ^ (EN) Canonical Correlation Analysis, Springer, 2007, pp. 321–330, DOI:10.1007/978-3-540-72244-1_14, ISBN 978-3-540-72244-1. URL consultato il 16 marzo 2022.
  2. ^ Camille Jordan, Essai sur la géométrie à n dimensions, in Bulletin de la Société mathématique de France, vol. 2, 1875, pp. 103–174, DOI:10.24033/bsmf.90. URL consultato il 16 marzo 2022.
  Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica