Matrice delle covarianze

In statistica multivariata e in probabilità, la matrice delle covarianze (o matrice di varianza e covarianza) si indica di solito con ed è una generalizzazione della covarianza al caso di dimensione maggiore di due. Essa è una matrice che rappresenta la variazione di ogni variabile rispetto alle altre (inclusa se stessa). È una matrice simmetrica.

Statistica modifica

Sia data una popolazione di   elementi su cui sono rilevati   caratteri quantitativi  . Cioè ogni   con   è un vettore di   elementi, indicati con   con  . L'elemento   rappresenta quindi la modalità dell' -esima unità statistica rispetto al carattere  . La matrice delle covarianze ha dimensione   e ogni elemento è definito come

 

dove   indica la media del carattere  .

Significato dei valori modifica

Ogni elemento sulla diagonale   è la varianza del carattere   ed è quindi sempre un valore non negativo. Ogni elemento   (con  ) è la covarianza tra i caratteri   e  . Nel caso in cui questo valore sia positivo, significa che al crescere di un carattere, cresce anche l'altro. Nel caso in cui questo valore sia negativo, accade il contrario. Se i caratteri sono statisticamente indipendenti, questo valore è   (l'implicazione inversa non è necessariamente verificata).

Applicazioni modifica

Oltre al significato statistico che possiamo dedurre dai termini, la matrice delle covarianze è un parametro della funzione gaussiana, nella statistica multivariata.

Può inoltre essere d'ausilio alla riduzione delle features, tramite l'analisi delle componenti principali (PCA).

Bibliografia modifica

  • Richard O. Duda, Peter E. Hart, David G. Stork, Wiley Interscience - Pattern Classification (2nd ed.)

Voci correlate modifica

  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica