Text categorization

attività che si occupa di classificare testi digitali

La classificazione del testo (in inglese text categorization o text classification, abbreviata come TC) è, nell'intelligenza artificiale, un'attività che si occupa di classificare testi digitali espressi in una lingua naturale assegnando in maniera automatica collezioni di documenti a una o più classi appartenenti a un "insieme di classi" predefinito.

Per realizzare ciò si utilizzano solitamente degli approcci di apprendimento automatico di tipo supervisionato, dove è necessario addestrare il sistema tramite auto-apprendimento per esempi (anche chiamate istanze) da cui generare un modello generale per la classificazione automatica. Esistono tuttavia altri approcci, come quello non supervisionato o semi-supervisionato, ma solitamente con risultati peggiori.

Applicazioni modifica

Tipica applicazione per questa tecnica è l'interpretazione di e-mail, con l'obiettivo di segnalare possibili e-mail indesiderate (spam).

Voci correlate modifica