Matrice di confusione

Nell'ambito del Machine learning, la matrice di confusione, detta anche tabella di errata classificazione, restituisce una rappresentazione dell'accuratezza di classificazione statistica.

Ogni colonna della matrice rappresenta i valori predetti, mentre ogni riga rappresenta i valori reali. L'elemento sulla riga i e sulla colonna j è il numero di casi in cui il classificatore ha classificato la classe "vera" i come classe j. Attraverso questa matrice è osservabile se vi è "confusione" nella classificazione di diverse classi.

Attraverso l'uso della matrice di confusione è possibile calcolare il coefficiente kappa, anche conosciuto come coefficiente kappa di Cohen.

Esempio

Esaminiamo il caso di una classificazione dove si distinguono tre classi: gatto, cane e coniglio. Nelle righe si scrivono i valori veri, reali. Mentre nelle colonne quelli predetti, stimati dal sistema.

Esempio di matrice di confusione
		Predetti			Somma
		Gatto	Cane	Coniglio	Somma
Reali	Gatto	5	2	0	7
	Cane	3	3	2	8
	Coniglio	0	1	11	12
Somma		8	6	13	27

Nell'esempio si può notare che dei 7 gatti reali, il sistema ne ha classificati 2 come cani. Allo stesso modo si può notare come dei 12 conigli veri, solamente 1 è stato classificato erroneamente. Gli oggetti che sono stati classificati correttamente sono indicati sulla diagonale della matrice, per questo è immediato osservare dalla matrice se il classificatore ha commesso o no degli errori.

Inoltre, è possibile ottenere due valori di accuratezza significativi:

Producer Accuracy di X = (numero di valori correttamente classificati come classe X) / (numero di valori appartenenti alla classe X)
User Accuracy di X = (numero di valori correttamente classificati come classe X) / (numero di valori classificati come classe X)

Nel caso della classe "gatto", questo ha i seguenti valori (vedi la matrice qui sopra):

$P.A.=5/7=71,4\%$
$U.A.=5/8=62,5\%$

Matrice di confusione

Nell'apprendimento automatico questa tabella può anche essere utilizzata con i valori di "veri positivi"/"falsi positivi" e "falsi negativi"/"veri negativi".

		Valori predetti
		n'	p'	totale
Valori Reali	n	Veri negativi	Falsi positivi	N
Valori Reali	p	Falsi negativi	Veri positivi	P
totale		N'	P'

Così facendo è possibile calcolare:

accuratezza: $ACC={\frac {(VP+VN)}{(VP+VN+FP+FN)}}$
probabilità di falso allarme: $P_{FA}={\frac {FP}{(VP+FP)}}$
probabilità di mancato allarme: $P_{MA}={\frac {FN}{(VN+FN)}}$

Portale Matematica

Portale Statistica