Precisione e recupero

classificazioni statistiche

Precisione e recupero, o richiamo (in inglese precision e recall) sono due comuni classificazioni statistiche, utilizzate in diversi ambiti del sapere, come per es. l'information retrieval. La precisione può essere vista come una misura di esattezza o fedeltà, mentre il recupero è una misura di completezza.

In questa figura gli elementi rilevanti sono a sinistra della linea retta mentre gli elementi ritrovati sono all'interno dell'ovale. Le due regioni rosse rappresentano gli errori. Nella regione rossa a sinistra (fuori dall'ovale) sono rappresentati gli elementi rilevanti che non sono stati recuperati (i falsi negativi), mentre in quella a destra (dentro l'ovale) sono rappresentati gli elementi recuperati che però non sono rilevanti (i falsi positivi). Precisione e recupero sono il quoziente dell'area della regione verde con, rispettivamente, l'ovale (freccia orizzontale) e la regione di sinistra (freccia diagonale).

Nell'Information Retrieval, la precisione è definita come il numero di documenti attinenti recuperati da una ricerca diviso il numero totale di documenti recuperati dalla stessa ricerca, e il recupero è definito come il numero di documenti attinenti recuperati da una ricerca diviso il numero totale di documenti attinenti esistenti (che dovrebbe essere stato recuperato).

In un processo di classificazione statistica, la precisione per una classe è il numero di veri positivi (il numero di oggetti etichettati correttamente come appartenenti alla classe) diviso il numero totale di elementi etichettati come appartenenti alla classe (la somma di veri positivi e falsi positivi, che sono oggetti etichettati erroneamente come appartenenti alla classe). Recupero in questo contesto è definito come il numero di veri positivi diviso il numero totale di elementi che effettivamente appartengono alla classe (per esempio la somma di veri positivi e falsi negativi, che sono oggetti che non sono stati etichettati come appartenenti alla classe ma dovrebbero esserlo).

Nell'Information Retrieval, un valore di precisione di 1.0 significa che ogni risultato recuperato da una ricerca è attinente mentre un valore di recupero pari a 1.0 significa che tutti i documenti attinenti sono stati recuperati dalla ricerca.

In un processo di classificazione, un valore di precisione di 1.0 per la classe C significa che ogni oggetto che è stato etichettato come appartenente alla classe C vi appartiene davvero (ma non dice niente sul numero di elementi della classe C che non sono stati etichettati correttamente) mentre un valore di recupero pari ad 1.0 significa che ogni oggetto della classe C è stato etichettato come appartenente ad essa (ma non dice niente sul numero di elementi etichettati non correttamente con C).

Definizione (information retrieval) modifica

Nell'information retrieval, precisione e recupero sono definite in termini di insieme di documenti recuperati (lista di documenti restituiti da un motore di ricerca rispetto ad una query) e un insieme di documenti attinenti (lista di tutti i documenti che sono attinenti per l'argomento cercato).

 

 

Definizione (classificazione) modifica

In un processo di classificazione, i termini vero positivo, vero negativo, falso positivo e falso negativo sono usati per confrontare la classificazione di un oggetto (l'etichetta di classe assegnata all'oggetto da un classificatore) con la corretta classificazione desiderata (la classe a cui in realtà appartiene l'oggetto).

Precisione e recupero sono definite come:
 
 

Interpretazione probabilistica modifica

La precisione è la probabilità che un documento recuperato (selezionato casualmente) sia attinente. Il recupero è la probabilità che un documento attinente (selezionato casualmente) sia recuperato in una ricerca.

Voci correlate modifica

Altri progetti modifica