La funzione di peso tf-idf (term frequency–inverse document frequency) è una funzione utilizzata in information retrieval per misurare l'importanza di un termine rispetto ad un documento o ad una collezione di documenti. Tale funzione aumenta proporzionalmente al numero di volte che il termine è contenuto nel documento, ma cresce in maniera inversamente proporzionale con la frequenza del termine nella collezione. L'idea alla base di questo comportamento è di dare più importanza ai termini che compaiono nel documento, ma che in generale sono poco frequenti.

Formula matematicaModifica

La funzione può essere scomposta in due fattori: Il primo fattore della funzione è il numero dei termini presenti nel documento. In genere questo numero viene diviso per la lunghezza del documento stesso per evitare che siano privilegiati i documenti più lunghi.

 

dove   è il numero di occorrenze del termine   nel documento  , mentre il denominatore   è semplicemente la dimensione, espressa in numero di termini, del documento  .

L'altro fattore della funzione indica l'importanza generale del termine   nella collezione:

 

dove   è il numero di documenti nella collezione, mentre il denominatore è il numero di documenti che contengono il termine  .

Abbiamo quindi che:

 

EsempioModifica

Consideriamo un documento contenente 100 parole e nel quale il termine pluto compare 5 volte. Il fattore TF per il termine pluto è  . Assumiamo di avere ora 1 000 documenti nella collezione e pluto compare in 10 di questi. Quindi  . Da questo possiamo calcolare il valore Tf-idf relativo alla parola pluto nel documento iniziale:  .

BibliografiaModifica

Voci correlateModifica

Collegamenti esterniModifica

  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica