Scomposizione della devianza

La scomposizione della devianza è un'operazione utilizzata in statistica per calcolare, tra le altre cose, il coefficiente di determinazione e la statistica test ANOVA. Data una variabile numerica $y$ si chiama devianza la somma degli scarti quadratici dalla media campionaria ${\textstyle \sum _{i}(y_{i}-{\bar {y}})^{2}}$ ; questa quantità si può scomporre in una parte "spiegata" da una o più variabili $x$ e una parte "residua"; la somma di queste due parti è costante e corrisponde alla devianza totale.

Devianza tra e entro gruppi modifica

Quattro boxplot di una variabile numerica y distinta tra due gruppi. Negli esempi a sinistra la devianza tra gruppi è chiaramente maggiore a quella entro gruppi, perché i valori di y sono ben distinti tra gruppi diversi. Negli esempi a destra accade invece il contrario.

Quando si dispone di $k$ gruppi distinti di $n_{j}$ osservazioni ciascuno di una variabile numerica $y$ , si può calcolare la devianza complessiva di $y$ ignorando la distinzione tra gruppi, e la si può scomporre in due quantità SSW (devianza entro gruppi, in inglese Sum of Squares Within) e SSB (devianza tra gruppi, in inglese Sum of Squares Between):

la media campionaria di $y$ nel j-esimo gruppo si indica come ${\bar {y}}_{j}$ ;
la devianza di $y$ entro il j-esimo gruppo si indica come $SS_{j}$ ;
la media campionaria generale di $y$ si indica come ${\bar {y}}$ , e la devianza totale di $y$ si indica come $SST$ ;
$SSW=\sum _{j=1}^{k}SS_{j}$ ;
$SSB=\sum _{j=1}^{k}n_{j}({\bar {y}}_{j}-{\bar {y}})^{2}$ ;
$SST=SSW+SSB$ .

La devianza tra gruppi sarà maggiore di quella entro gruppi quando i valori di $y$ sono ben distinti tra gruppi diversi, e sarà invece bassa quando le medie locali ${\bar {y}}_{j}$ si assomigliano. Nel caso limite in cui esse siano tutte uguali, $SSB=0$ . Questa scomposizione si può usare per creare il coefficiente $\eta ^{2}=SSB/SST$ , che indica la proporzione della devianza totale di $y$ che nasce dall'eterogeneità dei gruppi sui quali la variabile viene osservata^[1]. In virtù della relazione tra devianza e varianza, introducendo i propri denominatori alle equazioni sopra, si ricava la scomposizione della varianza, la quale ha il vantaggio di ricondurre le quantità empiriche sopra alle proprietà della variabile casuale $y$ e permette di condurre i test delle ipotesi che vanno sotto il nome di ANOVA (ANalisys Of VAriance).

Devianza spiegata e residua modifica

In questi due esempi di regressione lineare semplice, la devianza spiegata è uguale, mentre quella residua è differente, perciò il valore R quadro varia anch'esso

Quando si dispone di due variabili numeriche $y$ e $x$ , si può analizzare la relazione tra le due variabili con un modello lineare semplice, in questo modo, per misurare l'associazione tra le due variabili, si può scomporre la devianza totale di $y$ (la variabile usata come outcome nel modello lineare) in devianza residua SSR e spiegata SSM (Sum of Squares of Model):

si indica con ${\hat {y}}_{i}$ il valore di $y_{i}$ previsto dal modello;
$SSR=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}$ ;
$SSM=\sum _{i=1}^{n}({\hat {y}}_{i}-{\bar {y}})^{2}$ .

Il rapporto tra SSM e devianza totale di $y$ SST dà luogo al coefficiente di determinazione $R^{2}$ , il quale è anche il quadrato del coefficiente di correlazione di Pearson $R$ . Come si può notare dalle equazioni, $R^{2}$ è tanto maggiore quando i valori di $y$ risultano vicini a quelli previsti del modello, mentre diminuisce quando il modello prevede valori molto vicini tra loro nella scala della $y$ .

Chiaramente, questo metodo è facilmente estendibile a un numero maggiore di variabili $x$ utilizzando una regressione multivariata, in tal caso il coefficiente $R^{2}$ perde il suo valore di indice di associazione tra variabili e si volge ad indicare la capacità del modello lineare di determinare appunto il valore di ciascuna $y$ osservata, o, in altre parole, la capacità del modello di "spiegare" appunto la variabilità di $y$ ; si definisce invece "residua" la devianza (e la rispettiva varianza) di $y$ che il modello non riesce a spiegare per mezzo dei predittori $x$ .

Si può verificare facilmente che nel caso di una sola variabile esplicativa $x$ categorica, i gruppi definiti dalle categorie di quella variabile danno luogo alle equazioni $SSR=SSW$ e $SSM=SSB$ , perciò $\eta ^{2}=R^{2}$ .

Note modifica

^ Amalia Caputo, Relazione tra una variabile categoriale e una cardinale, su federica.unina.it. URL consultato il 9 dicembre 2019.

Portale Matematica

Portale Statistica

[1] Amalia Caputo, Relazione tra una variabile categoriale e una cardinale, su federica.unina.it. URL consultato il 9 dicembre 2019.

[1]