Scomposizione della devianza: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
mNessun oggetto della modifica
Riga 19:
== Devianza spiegata e residua ==
 
Quando si dispone di due variabili continue <math>y</math> e <math>x</math>, si può analizzare la relazione tra le due variabili con un [[Regressione lineare#Regressione lineare semplice|modello lineare semplice]], in questo modo, per misurare l'associazione tra le due variabili, si può scomporre la devianza totale di <math>y</math> (la variabile usata come outcome nel modello lineare) in devianza residua '''''SSR''''' e spiegata '''''SSM''''' () ''Sum of Squares of Model''):
In [[statistica]], la '''Somma dei quadrati residui''' (''Sum of Squared Residuals'' - SSR o anche ''Residual Sum of Squares'' - RSS) è la somma dei quadrati dei [[errore statistico|residui]] semplici dedotti dal modello, ovvero la [[devianza (statistica descrittiva)|devianza]] residua. La SSR è una misura della discrepanza tra i dati ed il modello scelto: quanto minore sarà tale distanza, migliore risulterà l'adattamento del modello ai dati e quindi le conclusioni che se ne trarranno saranno più precise.
 
*si indica con <math>\hat y_i</math> il valore di <math>y_i</math> previsto dal modello;
:*<math>SSR = \sum_{i=1}^n \hat{u}_i^2(y_i =- \sum_{i=1}^nhat (y_i - f(x_i))^2 </math>;
*<math>SSM = \sum_{i=1}^n (\hat y_i - \bar y)^2</math>.
 
Il rapporto tra SSR e devianza totale di <math>y</math> SST dà luogo al [[coefficiente di determinazione]] <math>R^2</math>, il quale è anche il quadrato del [[coefficiente di correlazione di Pearson]] <math>R</math>. Come si può notare dalle equazioni, <math>R^2</math> è tanto maggiore quando i valori di <math>y</math> risultano vicini a quelli previsti del modello, mentre diminuisce quando il modello prevede valori molto vicini tra loro nella scala della <math>y</math>.
Nel contesto di un [[regressione lineare|modello di regressione]] lineare semplice <math>y_i = a+bx_i+\varepsilon_i</math>, dove ''a'' e ''b'' sono [[coefficiente|coefficienti]], ''y'' e ''x'' sono la [[variabile dipendente]] ed il [[regressore]], ed <math>\varepsilon_i</math> è l'[[errore statistico|errore]] associato alla componente i-esima, la SSR è la somma dei quadrati dei residui, ovvero delle stime della [[variabile aleatoria]] &epsilon;<sub>''i''</sub>.
 
Chiaramente, questo metodo è facilmente estendibile a un numero maggiore di variabili <math>x</math> utilizzando una regressione multivariata, in tal caso il coefficiente <math>R^2</math> perde il suo valore di indice di associazione tra variabili e si volge ad indicare la capacità del modello lineare di determinare appunto il valore di ciascuna <math>y</math> osservata, o, in altre parole, la capacità del modello di "spiegare" appunto la variabilità di <math>y</math>; si definisce invece "residua" la devianza (e la rispettiva varianza) di <math>y</math> che il modello non riesce a spiegare per mezzo dei predittori <math>x</math>.
:<math>SSR = \sum_{i=1}^n (y_i - (a+bx_i))^2 = \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \sum_{i=1}^n \hat{u}_i^2 </math>
 
Si può verificare facilmente che nel caso di una sola variabile esplicativa <math>x</math> categorica, i gruppi definiti dalle categorie di quella variabile risultano in nelle equazioni <math>SSR = SSW</math> e <math>SSM = SSB</math>, perciò <math>\eta^2 = R^2</math>.
Secondo la formula di scomposizione della [[devianza (statistica descrittiva)|devianza]], risulta che la devianza totale è pari alla somma della devianza residua e della devianza spiegata:
 
[[somma dei quadrati totale|SST]] = [[somma dei quadrati spiegata|SSE]] + SSR
 
== Bibliografia ==