Encodage SGML de corpus: application à létude dun débat parlementaireReport as inadecuate




Encodage SGML de corpus: application à létude dun débat parlementaire - Download this document for free, or read online. Document in PDF available to download.

1 FRE2546 - Corpus, Ressources et Apprentissages Linguistiques

Résumé : Dans certains domaines de la science, telles la physique ou la psychologie expérimentale, on admet que l-outil d-observation puisse influencer la donnée observable. L-analyse de corpus informatisée, plus particulièrement la lexicométrie, n-échappe pas à ce phénomène, ce qui peut poser un problème de méthode relativement important. Faut-il systématiquement adapter un texte à l-outil qui permettra son traitement automatique pour assister son analyse ? Quels sont les risques à ne pas le faire ? Quelles stratégies adopter ? Y a-t-il un format de stockage ou de représentation du texte général qui permette de transformer aisément le texte pour tel ou tel outil d-analyse ? Etant donné la multitude d-outils d-analyse et de formats de stockage des données, il importe de se questionner sur la démarche d-encodage d-informations dans un texte à des fins d-analyses lexicométriques et de proposer des éléments de réponse aux questions posées systématiquement par l-étude du discours à l-aide d-outils traitant des corpus textuels sous forme électronique.Dans cet article, après une analyse de la démarche et des enjeux de l-encodage de corpus, nous proposons un format et des outils d-encodage qui satisfont aux contraintes de la méthode.Cet article est organisé comme suit : dans la section 2, nous définissons trois types d-informations fondamentaux pour les traitements lexicométriques. Dans la section 3, nous exposons une méthode normalisée d-encodage mise au point pour la base de textes de notre laboratoire en liaison avec les différents outils de traitement afférents. Enfin, dans la section 4, nous illustrons la démarche proposée en l-appliquant à un corpus de débats parlementaires pour montrer quelques exemples d-exploitation

Mots-clés : analyse du discours encodage de corpus norme SGML





Author: Serge Heiden -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents