Indice di correlazione di Pearson

Esempi di grafici di dispersione con differenti valori di indice di correlazione (ρ)

In statistica, l'indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare[1] o coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.[1] Secondo la disuguaglianza di Cauchy-Schwarz ha un valore compreso tra e dove corrisponde alla perfetta correlazione lineare positiva, corrisponde a un'assenza di correlazione lineare e corrisponde alla perfetta correlazione lineare negativa. Fu sviluppato da Karl Pearson da un'idea introdotta da Francis Galton nel 1880; la formula matematica fu derivata e pubblicata da Auguste Bravais nel 1844.[2][3][4]La denominazione del coefficiente è anche un esempio della legge di Stigler.

DefinizioneModifica

Date due variabili statistiche   e  , l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

 .

dove   è la covarianza tra   e   e   sono le due deviazioni standard.

Il coefficiente assume sempre valori compresi tra   e  [5]

 

Correlazione e indipendenzaModifica

Nella pratica si distinguono vari "tipi" di correlazione.

  • Se  , le variabili   e   si dicono direttamente correlate, oppure correlate positivamente;
  • se  , le variabili   e   si dicono incorrelate;
  • se  , le variabili   e   si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

  • se   si ha correlazione debole;
  • se   si ha correlazione moderata;
  • se   si ha correlazione forte.

Se le due variabili sono indipendenti allora l'indice di correlazione vale 0. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

abbiamo che   e   non sono indipendenti in quanto legate dalla relazione  , ma  .

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale   in presenza di correlazione lineare positiva perfetta (cioè  , con  ), mentre vale   in presenza di correlazione lineare negativa perfetta (cioè  , con  ).

Valori prossimi a   (o  ) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica:  

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente  .

Generalizzazione a più di due variabiliModifica

Gli indici di correlazione di   variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione   avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè  , e i coefficienti sulla diagonale valgono   in quanto

 

Proprietà matematicheModifica

Un valore dell'indice di correlazione uguale a   o   corrisponde a punti che si trovano esattamente su una linea retta. Il coefficiente di correlazione di Pearson è simmetrico:  

Una proprietà matematica caratteristica del coefficiente di correlazione di Pearson è che non varia rispetto ai cambiamenti singoli della posizione e della scala delle due variabili. Cioè, possiamo trasformare   in   e trasformare   in   dove   e   sono costanti reali con   senza modificare il coefficiente di correlazione.

NoteModifica

BibliografiaModifica

Voci correlateModifica

Collegamenti esterniModifica

Controllo di autoritàGND (DE4165345-2