en fr Toward a lightweight solution to the language resources bottleneck issue: creating a POS tagger for Alsatian using voluntary crowdsourcing Vers une solution légère de production de données pour le TAL : création dun tagReport as inadecuate




en fr Toward a lightweight solution to the language resources bottleneck issue: creating a POS tagger for Alsatian using voluntary crowdsourcing Vers une solution légère de production de données pour le TAL : création dun tag - Download this document for free, or read online. Document in PDF available to download.

1 STIH - Sens, Texte, Informatique, Histoire 2 EA 1339 - UMB - Linguistique, Langues et Parole LILPA

Abstract : We present here the results of an experiment on part-of-speech annotation of a corpus in a low-resourced regional language, Alsatian, using a specifically-developed voluntary crowdsourcing platform: Bisame. 1 It has been online since May 2016 and has allowed to gather 15,846 annotations, thanks to 42 participants. An evaluation performed on a reference corpus shows a F-measure of 0.93 of the produced annotations. The tagger trained on these annotations is accurate in 82% of the cases. This is the first POS tagger developed for Alsatian. This language resources development method proved to be efficient and promising for some low-resourced languages, for which a significant number of speakers have access to the Internet. The platform code, the annotated corpus and the tagger are all freely available.

Résumé : Nous présentons ici les résultats d-une expérience menée sur l-annotation en parties du discours d-un corpus d-une langue régionale encore peu dotée, l-alsacien, via une plateforme de myriadisation crowdsourcing bénévole développée spécifiquement à cette fin : Bisame 1. La plateforme, mise en ligne en mai 2016, nous a permis de recueillir 15 846 annotations grâce à 42 participants. L-évaluation des annotations, réalisée sur un corpus de référence, montre que la F-mesure des annotations volon-taires est de 0, 93. Le tagger entraîné sur le corpus annoté atteint lui 82 % d-exactitude. Il s-agit du premier tagger spécifique à l-alsacien. Cette méthode de développement de ressources langagières est donc efficace et prometteuse pour certaines langues peu dotées, dont un nombre suffisant de locuteurs est connecté et actif sur le Web. Le code de la plateforme, le corpus annoté et le tagger sont librement disponibles.

Keywords : crowdsourcing POS-Tagging Alsatian low-resourced languages





Author: Alice Millour - Karën Fort - Delphine Bernhard - Lucie Steiblé -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents