Analisi delle componenti principali

L'analisi delle componenti principali (in inglese principal component analysis o abbreviata PCA), anche nota come trasformata di Karhunen-Loève^[1], è una tecnica per la semplificazione dei dati utilizzata nell'ambito della statistica multivariata.^[2] Questo metodo fu proposto per la prima volta nel 1901 da Karl Pearson e sviluppato poi da Harold Hotelling nel 1933, e fa parte dell'analisi fattoriale. La tecnica, esempio di riduzione della dimensionalità, ha lo scopo di ridurre il numero più o meno elevato di variabili che descrivono un insieme di dati a un numero minore di variabili latenti, limitando il più possibile la perdita di informazioni.^[2]

Esempio di PCA. I vettori indicati sono gli autovettori della matrice di covarianza.

Risoluzione lineare modifica

Ciò avviene tramite una trasformazione lineare delle variabili che proietta quelle originarie in un nuovo sistema cartesiano in cui la nuova variabile con la maggiore varianza viene proiettata sul primo asse, la variabile nuova, seconda per dimensione della varianza, sul secondo asse e così via.

La riduzione della complessità avviene limitandosi ad analizzare le principali, per varianza, tra le nuove variabili.

Diversamente da altre trasformazioni lineari di variabili praticate nell'ambito della statistica, in questa tecnica sono gli stessi dati che determinano i vettori di trasformazione.

Assumendo che a ciascuna delle variabili originarie venga sottratta la loro media e pertanto la nuova variabile $(X_{i})$ abbia media nulla,

\mathbf {w} _{1}={\underset {\Vert \mathbf {w} \Vert =1}{\operatorname {\arg \,max} }}\,E\left\{\left(\mathbf {w} ^{T}\mathbf {x} \right)^{2}\right\}

dove arg max indica l'insieme degli argomenti $w$ in cui è raggiunto il massimo. Con le prime $k-1$ componenti, la $k$ -esima componente può essere trovata sottraendo le prime $k-1$ componenti principali a $X$ :

\mathbf {\hat {x}} _{k}=\mathbf {x} -\sum _{i=1}^{k-1}\mathbf {w} _{i}\mathbf {w} _{i}^{T}\mathbf {x}

e sostituendo questo

\mathbf {w} _{k}={\underset {\Vert \mathbf {w} \Vert =1}{\operatorname {arg\,max} }}\,E\left\{\left(\mathbf {w} ^{T}\mathbf {\hat {x}} _{k-1}\right)^{2}\right\}

Risoluzione matriciale modifica

Un metodo più semplice per calcolare la componente $\mathbf {w} _{i}$ utilizza la matrice delle covarianze di $\mathbf {x} _{i}$ . La stessa operazione può essere eseguita partendo dalla matrice dei coefficienti di correlazione anziché dalla matrice di varianza-covarianza delle variabili $x$ .

Innanzitutto si devono trovare gli autovalori della matrice di covarianza o della matrice dei coefficienti di correlazione. Si ottengono tanti autovalori quante sono le variabili $\mathbf {x}$ . Se viene utilizzata la matrice di correlazione, l'autovalore relativo alla prima componente principale, ossia quella con varianza massima, sarà pari a $1$ . In ogni caso l'autovalore con il maggiore valore corrisponde alla dimensione $\mathbf {w}$ che ha la maggiore varianza: esso sarà dunque la varianza della componente principale 1. In ordine decrescente, il secondo autovalore sarà la varianza della componente principale 2, e così via per gli n autovalori. Per ciascun autovalore viene calcolato il corrispondente autovettore, ossia la matrice (riga vettore) dei coefficienti che moltiplicano le vecchie variabili $\mathbf {x}$ nella combinazione lineare per l'ottenimento delle nuove variabili $\mathbf {w}$ . Questi coefficienti sono anche definiti loading. La matrice degli autovettori, ossia la matrice che ha per riga ciascun autovettore prima calcolato, è la cosiddetta matrice di rotazione $V$ . Eseguendo l'operazione matriciale $W=V\cdot X$ , dove $W$ è il vettore colonna avente come elementi le nuove variabili $w_{1},\,w_{2},\,\ldots ,\,w_{n}$ e $X$ è il vettore colonna avente come elementi le "vecchie variabili" $x_{1},\,x_{2},\,\ldots ,\,x_{n}$ , si possono trovare le coordinate di ciascun punto nel nuovo spazio vettoriale. Utilizzando le coordinate per ciascun punto relative alle componenti principali si costruisce il grafico denominato score plot. Se le componenti principali sono 3 si avrà un grafico tridimensionale, se sono 2 sarà bidimensionale, se invece si è scelta una sola componente principale lo score plot sarà allora monodimensionale. Mediante lo score plot è possibile verificare quali dati sono simili tra di loro e quindi si può ad esempio dedurre quali campioni presentano la medesima composizione.

In PCA esiste anche un altro tipo di grafico, definito loading plot, in cui sono le variabili $x$ ad essere riportate nel nuovo sistema avente per assi le componenti principali. Con questo tipo di grafico è possibile osservare se due variabili sono simili, e pertanto forniscono lo stesso tipo di informazione, oppure se sono distanti (e quindi non sono simili).

Quindi gli elementi dell'autovettore colonna corrispondente a un autovalore esprimono il legame tra le variabili di partenza e la componente considerata attraverso dei pesi. Il numero di variabili latenti da considerare come componenti principali si fonda sulla grandezza relativa di un autovalore rispetto agli altri. Invece nel caso in cui sia l'operatore a scegliere le componenti principali senza considerare la relativa varianza espressa dai rispettivi autovalori, si ha un supervised pattern recognition.

Si può costruire la matrice dei fattori, in pratica una matrice modale, che elenca per riga le variabili originarie e per colonna le variabili latenti: ogni valore, compreso tra 0 e 1, dice quanto le seconde incidano sulle prime.

Invece la matrice del punteggio fattoriale ha la stessa struttura della precedente, ma dice quanto le singole variabili originarie abbiano pesato sulla determinazione della grandezza di quelle latenti.

Esempio modifica

Si supponga di disporre di un'indagine che riporta per 10 soggetti: voto medio (da 0 a 33), intelligenza (da 0 a 10), media ore studiate in un giorno e zona d'origine, che varia da 1 a 3. Si standardizzino i valori con la formula:

$z={\frac {Xi-E(X)}{SD}}$

dove $E(x)$ è il valore atteso di $X$ , ovvero il valor medio, $SD$ è la deviazione standard.

La matrice dei coefficienti di correlazione è:

	Z_score (Voto medio)	Z_score (Intelligenza)	Z_score (Provenienza)	Z_score (Media ore di studio)
Z_score (Voto medio)	1,000	0,600	-0,838	0,788
Z_score (Intelligenza)	0,600	1,000	-0,222	0,022
Z_score (Provenienza)	-0,838	-0,222	1,000	-0,918
Z_score (Media ore di studio)	0,788	0,022	-0,918	1,000

La diagonale principale è composta da valori uguali ad $1$ perché è il coefficiente di correlazione di una variabile con se stessa. È pure una matrice simmetrica perché il coefficiente di correlazione tra la variabile $x$ e la variabile $y$ è uguale a quello tra $y$ e $x$ . Si vede come ci sia un forte legame tra voto, media ore studio e intelligenza.

Dall'analisi degli autovalori si possono trarre conclusioni:

Componente	Autovalori iniziali			Extraction sums of squared loadings
Componente	Totale	Varianza %	% Cumulative	Totale	Varianza %	% Cumulative
1	2,828	70,708	70,708	2,828	70,708	70,708
2	1,070	26,755	97,463	1,070	26,755	97,496
3	0,084	2,088	99,551
4	0,018	-0,449	100,000

Gli autovalori sono in ordine decrescente e il loro rapporto con la somma degli autovalori dà la percentuale di varianza che rappresentano. Sono stati selezionati arbitrariamente solo quelli che hanno valore maggiore di $1$ in quanto più significativi, che spiegano il 70,708% e il 26,755% rispettivamente.

Si osservi la matrice delle componenti principali:

	Componente
	1	2
Z_score (Voto medio)	0,966	0,204
Z_score (Intelligenza)	0,442	0,894
Z_score (Provenienza)	-0,947	0,228
Z_score (Media ore di studio)	0,897	-0,420

Il fattore 1 pesa fortemente sul voto medio. Sembrerebbe pure che pesi in maniera negativa sulla variabile della zona di origine; chiaramente questa affermazione non ha senso perché inverte il nesso di causalità: spetta allo statistico dare una spiegazione e una lettura sensate.

Si calcoli quindi la matrice di punteggio fattoriale:

	Componente
	1	2
Z_score (Voto medio)	0,341	0,191
Z_score (Intelligenza)	0,156	0,836
Z_score (Provenienza)	-0,335	0,213
Z_score (Media ore di studio)	0,317	-0,392

Come si vede la variabile provenienza continua ad avere un influsso di segno negativo sull'autovalore principale. Le altre variabili invece hanno peso positivo.

Note modifica

^ viene chiamata anche trasformata di Hotelling oppure decomposizione ortogonale propria
^ ^a ^b (EN) Stéphane Tufféry, Factor analysis, in Data mining and statistics for decision making, Wiley, 2011, pp. 175-180, ISBN 978-0-470-68829-8.

Bibliografia modifica

Sergio Bolasco, Analisi multidimensionale dei dati. Metodi, strategie e criteri d'interpretazione, 6ª ed., Roma, Carocci, 2014 [1999], ISBN 88-430-1401-3.
Roberto Todeschini, Introduzione alla chemiometria, 1ª ed., Napoli, EdiSES, 2003, ISBN 88-7959-146-0.
(EN) Stéphane Tufféry, Data mining and statistics for decision making, Wiley, 2011, ISBN 978-0-470-68829-8.

Voci correlate modifica

Altri progetti modifica

Wikimedia Commons contiene immagini o altri file sull'analisi delle componenti principali

Controllo di autorità	Thesaurus BNCF 52507 · LCCN (EN) sh85106729 · GND (DE) 4129174-8 · BNF (FR) cb11942895w (data) · J9U (EN, HE) 987007536366205171

Portale Informatica

Portale Ingegneria

Portale Statistica

[1] viene chiamata anche trasformata di Hotelling oppure decomposizione ortogonale propria

[Tuffery_definizione-2] (EN) Stéphane Tufféry, Factor analysis, in Data mining and statistics for decision making, Wiley, 2011, pp. 175-180, ISBN 978-0-470-68829-8.

[1]

[2]