F1 score

Nell'analisi statistica della classificazione binaria, l'F₁ score (nota anche come F-score o F-measure, letteralmente "misura F") è una misura dell'accuratezza di un test. La misura tiene in considerazione precisione e recupero del test, dove la precisione è il numero di veri positivi diviso il numero di tutti i risultati positivi, mentre il recupero è il numero di veri positivi diviso il numero di tutti i test che sarebbero dovuti risultare positivi (ovvero veri positivi più falsi negativi). L'F₁ viene calcolato tramite la media armonica di precisione e recupero:

F_{1}={\frac {2}{{\tfrac {1}{\mathrm {r} }}+{\tfrac {1}{\mathrm {p} }}}}=2\cdot {\frac {\mathrm {p} \cdot \mathrm {r} }{\mathrm {p} +\mathrm {r} }}

.

Può assumere valori compresi fra 0 e 1. Assume valore 0 solo se almeno uno dei due vale 0, mentre assume valore 1 se e solo se sia precisione che recupero valgono 1. L'F₁ score è anche noto come coefficiente di Sørensen-Dice (DSC), o semplicemente coefficiente di Dice.

La formula generale è:

F_{\beta }=(1+\beta ^{2})\cdot {\frac {\mathrm {p} \cdot \mathrm {r} }{(\beta ^{2}\cdot \mathrm {p} )+\mathrm {r} }}

.

per valori di β reali positivi.

La formula in termini di errori di primo e secondo tipo:

F_{\beta }={\frac {(1+\beta ^{2})\cdot \mathrm {TP} }{(1+\beta ^{2})\cdot \mathrm {TP} +\beta ^{2}\cdot \mathrm {FN} +\mathrm {FP} }}\,

.

Due particolari istanze della formula solitamente utilizzate sono la misura $F_{2}$ (che pone maggiore enfasi sui falsi negativi) ed $F_{0.5}$ (la quale attenua l'influenza dei falsi negativi).

In generale, $F_{\beta }$ "misura l'efficacia del recupero rispetto ad un utente che attribuisce al recupero un'importanza di β volte quella della precisione".^[1]

Applicazioni

L'F-score è solitamente usata nel campo del recupero dell'informazione per misurare l'accuratezza delle ricerche o della classificazione dei documenti. Inizialmente l'F₁ score era l'unica misura ad essere considerata, ma con la proliferazione in larga scala di motori di ricerca gli obiettivi di prestazione iniziarono a variare, divenendo necessario porre maggiore enfasi su precisione o recupero.^[2]

L'F-score è usata anche nel campo dell'apprendimento automatico^[3] ed è vastamente impiegata nella letteratura sull'elaborazione del linguaggio naturale.

Da notare, comunque, che non viene mai preso in considerazione il numero di veri negativi. In tal senso, misure come il coefficiente di correlazione di Matthews o il Kappa di Cohen possono generare risultati più adeguati alle proprie esigenze.^[4]

G-measure

Mentre l'F-measure è una media armonica di recupero e precisione, la cosiddetta G-measure è una media geometrica:^[4]

G={\sqrt {\mathrm {p} \cdot \mathrm {r} }}

G={\sqrt {\mathrm {PPV} \cdot \mathrm {TPR} }}

^[5]

Dove PPV sta per Positive Predictive Value ("valore predittivo positivo") e TPR per "True Positive Rate" (o indice di sensibilità).

È nota anche come indice di Fowlkes-Mallows.

Note

^ (EN) C. J. Van Rijsbergen, Evaluation, in Information Retrieval, 2ª ed., Butterworth, 1979.
^ (EN) X. Li, Y.-Y. Wang e A. Acero, Learning query intent from regularized click graphs (PDF), collana Proceedings of the 31st SIGIR Conference, luglio 2008. URL consultato il 20 maggio 2017 (archiviato dall'url originale il 22 aprile 2017).
^ (EN) See, e.g., the evaluation of the CoNLL 2002 shared task Archiviato il 17 luglio 2011 in Internet Archive.
^ ^a ^b (EN) David M W Powers, Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation (PDF), in Journal of Machine Learning Technologies, vol. 2, n. 1, 2011, pp. 37–63. URL consultato il 20 maggio 2017 (archiviato dall'url originale il 10 gennaio 2017).
^ (EN) Li, Guo-Zheng, et al. "Inquiry diagnosis of coronary heart disease in Chinese medicine based on symptom-syndrome interactions." Chinese medicine 7.1 (2012): 1.

Voci correlate

Portale Informatica

Portale Statistica

[1] (EN) C. J. Van Rijsbergen, Evaluation, in Information Retrieval, 2ª ed., Butterworth, 1979.

[2] (EN) X. Li, Y.-Y. Wang e A. Acero, Learning query intent from regularized click graphs (PDF), collana Proceedings of the 31st SIGIR Conference, luglio 2008. URL consultato il 20 maggio 2017 (archiviato dall'url originale il 22 aprile 2017).

[3] (EN) See, e.g., the evaluation of the CoNLL 2002 shared task Archiviato il 17 luglio 2011 in Internet Archive.

[Powers2011-4] (EN) David M W Powers, Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation (PDF), in Journal of Machine Learning Technologies, vol. 2, n. 1, 2011, pp. 37–63. URL consultato il 20 maggio 2017 (archiviato dall'url originale il 10 gennaio 2017).

[5] (EN) Li, Guo-Zheng, et al. "Inquiry diagnosis of coronary heart disease in Chinese medicine based on symptom-syndrome interactions." Chinese medicine 7.1 (2012): 1.

[1]

[2]

[3]

[4]

[5]