F1 score

Nell'analisi statistica della classificazione binaria, l'F1 score (nota anche come F-score o F-measure, letteralmente "misura F") è una misura dell'accuratezza di un test. La misura tiene in considerazione precisione e recupero del test, dove la precisione è il numero di veri positivi diviso il numero di tutti i risultati positivi, mentre il recupero è il numero di veri positivi diviso il numero di tutti i test che sarebbero dovuti risultare positivi (ovvero veri positivi più falsi negativi). L'F1 viene calcolato tramite la media armonica di precisione e recupero:

.

Può assumere valori compresi fra 0 e 1. Assume valore 0 solo se almeno uno dei due vale 0, mentre assume valore 1 sse sia precisione che recupero valgono 1. L'F1 score è anche noto come coefficiente di Sørensen-Dice (DSC), o semplicemente coefficiente di Dice.

La formula generale è:

.

per valori di β reali positivi.

La formula in termini di errori di primo e secondo tipo:

.

Due particolari istanze della formula solitamente utilizzate sono la misura (che pone maggiore enfasi sui falsi negativi) ed (la quale attenua l'influenza dei falsi negativi).

In generale, "misura l'efficacia del recupero rispetto ad un utente attribuisce al recupero un'importanza di β volte quella della precisione".[1]

ApplicazioniModifica

L'F-score è solitamente usata nel campo del recupero dell'informazione per misurare l'accuratezza delle ricerche o della classificazione dei documenti. Inizialmente l'F1 score era l'unica misura ad essere considerata, ma con la proliferazione in larga scala di motori di ricerca gli obiettivi di prestazione iniziarono a variare, divenendo necessario porre maggiore enfasi su precisione o recupero.[2]

L'F-score è usata anche nel campo dell'apprendimento automatico[3] ed è vastamente impiegata nella letteratura sull'elaborazione del linguaggio naturale.

Da notare, comunque, che non viene mai preso in considerazione il numero di veri negativi. In tal senso, misure come il coefficiente di correlazione di Matthews o il Kappa di Cohen possono generare risultati più adeguati alle proprie esigenze.[4]

G-measureModifica

Mentre l'F-measure è una media armonica di recupero e precisione, la cosiddetta G-measure è una media geometrica:[4]

 
 [5]

Dove PPV sta per Positive Predictive Value ("valore predittivo positivo") e TPR per "True Positive Rate" (o indice di sensibilità).

È nota anche come indice di Fowlkes-Mallows.

NoteModifica

  1. ^ (EN) C. J. Van Rijsbergen, Evaluation, in Information Retrieval, 2ª ed., Butterworth, 1979.
  2. ^ (EN) X. Li, Y.-Y. Wang e A. Acero, Learning query intent from regularized click graphs (PDF), in Proceedings of the 31st SIGIR Conference, luglio 2008.
  3. ^ (EN) See, e.g., the evaluation of the CoNLL 2002 shared task Archiviato il 17 luglio 2011 in Internet Archive.
  4. ^ a b (EN) David M W Powers, Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation (PDF), in Journal of Machine Learning Technologies, vol. 2, n. 1, 2011, pp. 37–63.
  5. ^ (EN) Li, Guo-Zheng, et al. "Inquiry diagnosis of coronary heart disease in Chinese medicine based on symptom-syndrome interactions." Chinese medicine 7.1 (2012): 1.

Voci correlateModifica