Coefficiente di determinazione

In statistica, il coefficiente di determinazione, (più comunemente R2), è un indice che misura il legame tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Esso è legato alla frazione della varianza non spiegata dal modello. La definizione più generica è la seguente:

dove:

  • è la devianza totale (Total Sum of Squares);
  • è la devianza residua (Residual Sum of Squares);
  • sono i dati osservati;
  • è la loro media;
  • sono i dati stimati dal modello.

Nelle regressioni lineari semplici il coefficiente di determinazione è semplicemente il quadrato del coefficiente di correlazione:

dove è la devianza spiegata dal modello (Explained Sum of Squares). Questa definizione è possibile poiché, per regressioni lineari semplici, la devianza può essere scomposta come .

R2 varia tra e 1: quando è 0 il modello utilizzato offre una spiegazione dei dati non migliore del valore medio (); quando è 1 il modello spiega perfettamente i dati. Un modello peggiore della media () ha coefficiente minore di 0.

Adjusted R2Modifica

L'Adjusted   (o  ) (meglio conosciuto in Italiano come   corretto o aggiustato) è una variante dell'   semplice.

Mentre   semplice è utilizzato per l'analisi di regressione lineare semplice come principale indice di bontà della curva di regressione,   corretto viene utilizzato per l'analisi di regressione lineare multipla. Esso serve a misurare la frazione di devianza spiegata, cioè la proporzione di variabilità di   "spiegata" dalla variabile esplicativa  . All'aumentare del numero di variabili esplicative (o predittori)  , aumenta anche il valore di  , per cui spesso è utilizzato al suo posto  , che serve a misurare la frazione di varianza spiegata.

Il coefficiente   può essere negativo e vale sempre la disuguaglianza  .

 

dove:

  •   è il numero delle osservazioni;
  •   è il numero dei regressori.

InterpretazioneModifica

Se   o   sono prossimi a 1, significa che i regressori predicono bene il valore della variabile dipendente in campione; mentre se è uguale a 0, significa che non lo fanno.[1]

L'  o l'  non dicono se:

  1. una variabile sia statisticamente significativa;
  2. i regressori sono causa effettiva dei movimenti della variabile dipendente;
  3. c'è una distorsione da variabile omessa;
  4. è stato scelto il gruppo dei regressori più appropriato.

NoteModifica

  1. ^ James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 174, ISBN 978-88-7192-267-6.

BibliografiaModifica

  • James Stock, Mark Watson, Introduzione all'econometria, Milano, Pearson Education, 2005, p. 121, ISBN 978-88-7192-267-6. 9788871922676
  • Draper, N.R. and Smith, H. (1998). Applied Regression Analysis. Wiley-Interscience. ISBN 0-471-17082-8
  • Everitt, B.S. (2002). Cambridge Dictionary of Statistics (2nd Edition). CUP. ISBN 0-521-81099-X
  • Nagelkerke, Nico J.D. (1992) Maximum Likelihood Estimation of Functional Relationships, Pays-Bas, Lecture Notes in Statistics, Volume 69, 110p ISBN 0-387-97721-X
  • Luigi Fabbris, Statistica multivariata (analisi esplorativa dei dati). 1997, McGrawHill. ISBN 88-386-0765-6

Altri progettiModifica

Collegamenti esterniModifica

Controllo di autoritàGND (DE4618882-4
  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica