en fr Incremental machine learning for evolving lexical databases construction: Application to named entity disambiguation Apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambiguReport as inadecuate




en fr Incremental machine learning for evolving lexical databases construction: Application to named entity disambiguation Apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambigu - Download this document for free, or read online. Document in PDF available to download.

1 TEXMEX - Multimedia content-based indexing IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires, Inria Rennes – Bretagne Atlantique 2 IRISA - Institut de Recherche en Informatique et Systèmes Aléatoires

Abstract : Some natural language processing applications have to deal with textual data streams characterized by the use of an evolving vocabulary, whether at the creation of words as at the change in the meaning of already existing words. In light of those observations, we have developed an incremental algorithm which can build automatically an evolving lexical database for identifying lexical units observed in a textual data stream. We used a concept lattice to build the lexical database from semantically unlabelled corpus. It allows us to infer formal concepts similar to meaning units organized into several granularity levels ranging from very specific to very general. This structured representation is completed with a cartographic model taking into account the continuous aspects of meaning and semantic proximity between concepts. This property is exploited to propagate the classification of a small number of named entities NEs : lexical units which usually refer to people, places, organizations

. to others NEs observed in unlabelled data streams during the incremental construction of the lattice. Once the lexical database is built, the concepts are enriched with NEs labels observed in a training corpus. The concepts and their attached labels are then respectively used for unsupervised annotation and supervised classification of NEs in test corpus.

Résumé : Certaines applications du traitement automatique des langues sont amenées à traiter des flux de données textuelles caractérisés par l-emploi d-un vocabulaire en perpétuelle évolution, que ce soit au niveau de la création des mots que des sens de ceux existant déjà. En partant de ce constat, nous avons mis au point un algorithme incrémental pour construire automatiquement et faire évoluer une base lexicale qui répertorie des unités lexicales non étiquetées sémantiquement observées dans des flux. Cette base lexicale est représentée par un treillis de Galois qui organise des concepts formels assimilés à des unités de sens sur des niveaux de granularité allant du très spécifique au très général. Cette représentation est complétée par une modélisation vectorielle visualisable qui tient compte des aspects continus du sens et de la proximité sémantique entre concepts. Ce modèle est alors exploité pour propager l-étiquetage manuel d-un petit nombre d-entités nommées EN : unités lexicales qui se référent habituellement à des personnes, des lieux, des organisations

. à d-autres EN non étiquetées observées dans un flux pendant la construction incrémentale du treillis. Les concepts de ce treillis sont enrichis avec les étiquettes d-EN observées dans un corpus d-apprentissage. Ces concepts et leurs étiquettes attachées sont respectivement employés pour l-annotation non supervisée et la classification supervisée des EN d-un corpus de test.

en fr

Keywords : incremental machine learning text data streams evolving lexical databases concept lattices named entity disambiguation

Mots-clés : apprentissage artificiel incrémental flux de données textuelles bases lexicales évolutives treillis de Galois désambiguïsation d-entités nommées





Author: Thomas Girault -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents