Scomposizione della devianza: differenze tra le versioni

Contenuto cancellato Contenuto aggiunto
m per non escludere le variabili discrete
Riga 1:
La '''scomposizione della devianza''' è un'operazione utilizzata in [[statistica]] per calcolare, tra le altre cose, il [[coefficiente di determinazione]] e la statistica test [[ANOVA]]. Data una variabile continuanumerica <math>y</math> si chiama [[devianza (statistica descrittiva)|devianza]] la somma degli scarti quadratici dalla [[media campionaria]] <math display= inline>\sum_i (y_i - \bar y)^2</math>; questa quantità si può scomporre in una parte "spiegata" da una o più variabili <math>x</math> e una parte "residua"; la somma di queste due parti è costante e corrisponde alla devianza totale.
 
== Devianza tra e entro gruppi ==
[[file:Kaxa diagrama int aukerak.pdf|thumb|upright= 1.2|Quattro boxplot di una variabile numerica ''y'' distinta tra due gruppi. Negli esempi a sinistra la devianza tra gruppi è chiaramente maggiore a quella entro gruppi, perché i valori di ''y'' sono ben distinti tra gruppi diversi. Negli esempi a destra accade invece il contrario.]]
 
Quando si dispone di <math>k</math> gruppi distinti di <math>n_j</math> osservazioni ciascuno di una variabile continuanumerica <math>y</math>, si può calcolare la devianza complessiva di <math>y</math> ignorando la distinzione tra gruppi, e la si può scomporre in due quantità '''''SSW''''' (devianza entro gruppi, in inglese ''Sum of Squares Within'') e '''''SSB''''' (devianza tra gruppi, in inglese ''Sum of Squares Between''):
 
*la media campionaria di <math>y</math> nel j-esimo gruppo si indica come <math>\bar y_j</math>;
Riga 18:
[[File:R2values.svg|thumb|In questi due esempi di regressione lineare semplice, la devianza spiegata è uguale, mentre quella residua è differente, perciò il valore R quadro varia anch'esso]]
 
Quando si dispone di due variabili continuenumeriche <math>y</math> e <math>x</math>, si può analizzare la relazione tra le due variabili con un [[Regressione lineare#Regressione lineare semplice|modello lineare semplice]], in questo modo, per misurare l'associazione tra le due variabili, si può scomporre la devianza totale di <math>y</math> (la variabile usata come outcome nel modello lineare) in devianza residua '''''SSR''''' e spiegata '''''SSM''''' (''Sum of Squares of Model''):
 
*si indica con <math>\hat y_i</math> il valore di <math>y_i</math> previsto dal modello;