Estrazione terminologica

L'estrazione terminologica è una sottocategoria dell'estrazione di informazioni che consiste nell'identificare (automaticamente) i termini rilevanti in un dato corpus.

Scopo dell'estrazione terminologica è generare materiale utile per la creazione di un glossario terminologico o di un'ontologia, oppure di supporto per la traduzione umana e automatica. Una volta estrapolati, i potenziali termini di interesse vengono filtrati sulla base di ricorrenza, specificità e tasso di ambiguità. Questa operazione si realizza solitamente mediante programmi informatici dedicati (i cosiddetti estrattori terminologici).

L'estrazione può essere monolingue o bilingue. L'estrazione monolingue è finalizzata all'identificazione di termini candidati, mentre l'estrazione bilingue si basa sull'analisi di testi di partenza e relative traduzioni per identificare potenziali termini e i loro traducenti. Esistono tool di estrazione terminologica di approccio linguistico, più adatti a lavorare su un'unica lingua dato che cercano combinazioni di parole che corrispondono a determinate strutture nel discorso. I tool dall'approccio più statistico identificano invece le sequenze ripetute di segmenti lessicali, con il vantaggio dell'indipendenza rispetto alla lingua considerata.

Trattandosi di un processo che sfrutta programmi automatici l'intervento umano nell'estrazione terminologica è necessario per escludere errori, imprecisioni e parole non rilevanti. In questo senso, l'estrazione di termini può quindi definirsi un processo di selezione assistito o semi-automatico.

Ulrich Heid, esperto di lessicografia computazionale, docente presso le Università di Stoccarda e Hildesheim e membro del gruppo di ricerca IMS Corpus/Lexicon Research Group, sostiene che l'estrazione terminologica automatica debba seguire tre principi:

  1. Un sistema di estrazione deve sempre permettere la correzione manuale e quindi essere semi-automatico.
  2. L'estrazione di termini candidati sarà sempre accompagnata da un certo rumore, cioè dalla presenza di termini indesiderati, la cui riduzione deve quindi essere l'obiettivo di chi sviluppa tali sistemi.
  3. Un sistema di estrazione terminologica dovrebbe per contro ridurre al minimo il numero di candidati buoni che non vengono estratti, cioè il cosiddetto silenzio.

Sempre secondo il professor Heid, l'estrazione si svolge in due fasi: l'identificazione dei termini candidati e il successivo filtraggio per ridurre rumore e silenzio.

Per l'estrazione semi-automatica di termini da corpora elettronici di riferimento si possono utilizzare vari programmi. Il più conosciuto è il Multiterm di Trados, creato nel 1992. Altri programmi utili sono WordSmith Tools, TextStat, AntConc e strumenti sul web come WebCorp10.

Bibliografia modifica

  • Riediger, H. (2018) Cos'è la terminologia e come si fa un glossario [1]
  • C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130
  • ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. [isbn: 3-540-65101-2]
  • a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007

Voci correlate modifica

Collegamenti esterni modifica