Automatic Segmentation of Texts and CorporaReport as inadecuate




Automatic Segmentation of Texts and Corpora - Download this document for free, or read online. Document in PDF available to download.

1 LIG Laboratoire d-Informatique de Grenoble - SIGMA LIG - Laboratoire d-Informatique de Grenoble 2 PACTE - Politiques publiques, ACtion politique, TErritoires 3 UPMC - Université Pierre et Marie Curie - Paris 6

Résumé : Le découpage des grands corpus de textes est l-une des questions cruciales posées aux études littéraires. Il est proposé une double méthode. L-analyse de la croissance du vocabulaire type-token ratio met en lumière les principaux changements de rythme. Ces résultats sont complétés par l-étude de la diversité du vocabulaire. Un algorithme de segmentation, associé à un test de validité, indique le découpage optimal. La méthode est appliquée aux oeuvres de Racine, Corneille et aux discours du Général de Gaulle.

Mots-clés : Type token ratio Segmentation Croissance du vocabulaire Diversité du vocabulaire Test de validité Sheffé Racine de Gaulle





Author: Cyril Labbé - Dominique Labbé - Pierre Hubert -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents