Lexicométrie sur corpus étiquetésReport as inadecuate




Lexicométrie sur corpus étiquetés - Download this document for free, or read online. Document in PDF available to download.

1 LLI - Laboratoire de linguistique informatique

Abstract : Tagged corpus are now widely available, and are of great interest for textual and linguistic studies. Some lexicometric softwares have new versions to handle such corpus, but these don-t give complete satisfaction yet. However, a clear and powerful model of text for lexicometric procedures has been formalized, as a string of positions ; in each position one or several types are instanciated, from one or several sets of types, such as a set of spellings, or a set of lemmas, or a set of grammatical codes.As regards the types definition, the way these kinds of linguistic information are recorded the record axes should not be confused with the views one can wish for a lexicometric analysis the analysis axes. Actually, record axes are often irrelevant analysis axes. As regards the string of positions, some positions may be removed for the purposes of the analysis, so as to define the appropriate background retained from the text. Then the analysis can also be focussed on a given pattern, standing out against the background. We finally propose means to complete the results- display. These are naturally expressed and organized according to the analysis axis, but the introduction of views from some other axes may clarify, adjust or enrich their interpretation.

Résumé : Devant la disponibilité et l-intérêt des corpus étiquetés, l-adaptation des logiciels de lexicométrie n-est pas encore pleinement satisfaisante. A cependant été explicité un modèle lexicométrique du texte, comme suite de positions en chacune desquelles s-instancie un type, et ce éventuellement pour plusieurs familles de types graphies, lemmes, codes grammaticaux par exemple.Il convient d-abord de pouvoir redéfinir des dimensions d-analyse fixant les types considérés, qui ne sont pas directement la reprise des dimensions d-enregistrement des informations dans l-étiquetage, celles-ci étant généralement non pertinentes si elles sont utilisées telles quelles. Quant aux positions, il est intéressant de pouvoir en masquer certaines filtre fond - texte puis de focaliser les calculs sur un motif donné sélection forme - fond. Enfin, bien que les résultats doivent rester présentés selon la dimension d-analyse qui les structure, nous proposons des manières de leur associer des éclairages selon d-autres dimensions, pour clarifier, nuancer ou enrichir l-interprétation.

Mots-clés : analyse textuelle assistée par ordinateur lexicométrie textométrie statistique textuelle linguistique de corpus corpus étiqueté lemmatisation interface Weblex Hyperbase





Author: Bénédicte Pincemin -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents