Apri il menu principale
Esempi di grafici di dispersione con differenti valori di indice di correlazione (ρ)

In statistica, l'indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare[1] o coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.[1]

Indice

DefinizioneModifica

Date due variabili statistiche   e  , l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

 .

dove   è la covarianza tra   e   e   sono le due deviazioni standard.

Il coefficiente assume sempre valori compresi tra -1 e 1:[2]

 .

Correlazione e indipendenzaModifica

Nella pratica si distinguono vari "tipi" di correlazione.

  • Se  , le variabili   e   si dicono direttamente correlate, oppure correlate positivamente;
  • se  , le variabili   e   si dicono incorrelate;
  • se  , le variabili   e   si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

  • se   si ha correlazione debole;
  • se   si ha correlazione moderata;
  • se   si ha correlazione forte.

Se le due variabili sono indipendenti allora l'indice di correlazione vale 0. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

abbiamo che   e   non sono indipendenti in quanto legate dalla relazione  , ma  .

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale + 1 in presenza di correlazione lineare positiva perfetta (cioè  , con  ), mentre vale -1 in presenza di correlazione lineare negativa perfetta (cioè  , con  ).

Valori prossimi a +1 (o -1) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica:  

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente  .

Generalizzazione a più di due variabiliModifica

Gli indici di correlazione di   variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione   avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè  , e i coefficienti sulla diagonale valgono 1, in quanto

 

NoteModifica

  1. ^ a b Glossario Istat, su www3.istat.it (archiviato dall'url originale il 31 dicembre 2011).
  2. ^ Sheldon, p. 117.

BibliografiaModifica

Voci correlateModifica

Collegamenti esterniModifica

Controllo di autoritàGND (DE4165345-2