Induzione di significati

In linguistica computazionale, l'induzione (o discriminazione) di significati è un problema aperto di elaborazione del linguaggio naturale che consiste nell'identificazione automatica dei significati di una parola. Essendo l'output di un sistema di induzione di significati è un insieme di sensi (inventario) per la parola obiettivo, questo task è strettamente correlato a quello della disambiguazione, che si fonda invece su un inventario di significati predefinito e mira a risolvere il problema della ambiguità delle parole in un contesto.

Metodi

L'output di un sistema di induzione di significati è un clustering di contesti in cui la parola obiettivo appare o, in alternativa, un clustering di parole correlate alla parola obiettivo (co-occorrenze). Sono stati proposti in letteratura tre approcci principali^[1]:

Clustering di contesti
Clustering di parole
Grafi di co-occorrenze

Clustering di contesti

Nel clustering di contesti ciascuna occorrenza di una parola obiettivo è rappresentata come un vettore di contesto. Tali vettori sono quindi raggruppati in cluster, uno per ogni diverso significato della parola obiettivo. Un approccio storico di questo tipo è basato sul concetto di spazio delle parole (word space)^[2], ovvero vettori le cui dimensioni sono parole.

Clustering di parole

Un secondo approccio consiste nel raggruppamento di parole che sono semanticamente simili e convogliano quindi un significato specifico della parola obiettivo. Metodi di questo tipo includono l'algoritmo di Lin^[3] e l'algoritmo Clustering by Committee^[4].

Grafi di co-occorrenze

Il terzo approccio all'induzione di significati è basato sulla nozione di grafo di co-occorrenze, ovvero un grafo i cui vertici sono parole correlate alla parola obiettivo e i cui archi collegano parole che co-occorrono tra loro all'interno di corpora di riferimento. Metodi di questo tipo includono: l'uso del Markov clustering algorithm^[5], HyperLex^[6] e relative varianti^[7].

Applicazioni

È stato mostrato che l'induzione di significati migliora le prestazioni del recupero dell'informazione sul Web in presenza di interrogazioni altamente ambigue^[6].
Algoritmi di induzione dei significati su grafi potenziano notevolmente il clustering dei risultati di ricerca Web e migliorano il grado di diversificazione dei risultati di ricerca restituiti da motori di ricerca quali Yahoo!^[8]

Note

^ (EN) R. Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1-69
^ (EN) H. Schutze. Dimensions of meaning. In Proc. of the 1992 ACM/IEEE Conference on Supercomputing. IEEE Computer Society Press, Los Alamitos, CA, 1992, pp. 787-796
^ (EN) D. Lin. Automatic retrieval and clustering of similar words Archiviato il 4 marzo 2012 in Internet Archive.. In Proc. of the 17th International Conference on Computational linguistics (COLING), Montreal, Canada, 1998, pp. 768-774.
^ (EN) D. Lin and P. Pantel. Discovering word senses from text. In Proc. of the 8th International Conference on Knowledge Discovery and Data Mining (KDD), Edmonton, Canada, 2002, pp. 613-619.
^ (EN) D. Widdows and B. Dorow. A graph model for unsupervised lexical acquisition Archiviato il 7 agosto 2011 in Internet Archive.. In Proc. of the 19th International Conference on Computational Linguistics (COLING), Taipei, Taiwan, 2002, pp. 1-7
^ ^a ^b (EN) J. Véronis. Hyperlex: Lexical cartography for information retrieval Archiviato il 24 luglio 2011 in Internet Archive.. Computer Speech and Language, 18(3), 2004, pp. 223–252
^ (EN) E. Agirre, D. Martinez, O. Lopez De Lacalle, A. Soroa. Two graph-based algorithms for state-of-the-art WSD Archiviato il 7 marzo 2010 in Internet Archive.. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP), Sydney, Australia, pp. 585-593
^ R. Navigli, G. Crisafulli. Inducing Word Senses to Improve Web Search Result Clustering. Proc. of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010), MIT Stata Center, Massachusetts, USA.

Voci correlate

[1] (EN) R. Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1-69

[2] (EN) H. Schutze. Dimensions of meaning. In Proc. of the 1992 ACM/IEEE Conference on Supercomputing. IEEE Computer Society Press, Los Alamitos, CA, 1992, pp. 787-796

[3] (EN) D. Lin. Automatic retrieval and clustering of similar words Archiviato il 4 marzo 2012 in Internet Archive.. In Proc. of the 17th International Conference on Computational linguistics (COLING), Montreal, Canada, 1998, pp. 768-774.

[4] (EN) D. Lin and P. Pantel. Discovering word senses from text. In Proc. of the 8th International Conference on Knowledge Discovery and Data Mining (KDD), Edmonton, Canada, 2002, pp. 613-619.

[5] (EN) D. Widdows and B. Dorow. A graph model for unsupervised lexical acquisition Archiviato il 7 agosto 2011 in Internet Archive.. In Proc. of the 19th International Conference on Computational Linguistics (COLING), Taipei, Taiwan, 2002, pp. 1-7

[veronis04-6] (EN) J. Véronis. Hyperlex: Lexical cartography for information retrieval Archiviato il 24 luglio 2011 in Internet Archive.. Computer Speech and Language, 18(3), 2004, pp. 223–252

[7] (EN) E. Agirre, D. Martinez, O. Lopez De Lacalle, A. Soroa. Two graph-based algorithms for state-of-the-art WSD Archiviato il 7 marzo 2010 in Internet Archive.. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP), Sydney, Australia, pp. 585-593

[8] R. Navigli, G. Crisafulli. Inducing Word Senses to Improve Web Search Result Clustering. Proc. of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010), MIT Stata Center, Massachusetts, USA.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]