Effacement de dimensions de similarité textuelle pour lexploration de collections de rapports dincidents aéronautiquesReport as inadecuate




Effacement de dimensions de similarité textuelle pour lexploration de collections de rapports dincidents aéronautiques - Download this document for free, or read online. Document in PDF available to download.

1 CLLE-ERSS - Cognition, Langues, Langage, Ergonomie

Abstract : In this paper we study the relationship between external classification and textual similarity in collections of incident reports. Our goal is to complement the existing classification-based analysis strategies by automatically establishing similarity links between documents in such a way that they do not reflect the dominant organisation of the classification schemas. In order to discover such transversal dimensions of similarity, we compute association scores between terms and classes and exlude the most correlated terms from the similarity calculation. We demonstrate on a 500 document corpus that by using this method, we can isolate topics that would otherwise have been masked by the dominant dimensions of similarity in the collection.

Résumé : Cet article étudie le lien entre la similarité textuelle et une classification extrinsèque dans des collections de rapports d-incidents aéronautiques. Nous cherchons à compléter les stratégies d-analyse de ces collections en établissant automatiquement des liens de similarité entre les documents de façon à ce qu-ils ne reflètent pas l-organisation des schémas de codification utilisés pour leur classement. Afin de mettre en évidence les dimensions de variation transversales à la classification, nous calculons un score de dépendance entre les termes et les classes et excluons du calcul de similarité les termes les plus corrélés à une classe donnée. Nous montrons par une application sur 500 documents que cette méthode permet effectivement de dégager des thématiques qui seraient passées inaperçues au vu de la trop grande saillance des similarités de haut niveau.

en fr

Keywords : textual simliarity document classification specialised corpora

Mots-clés : similarité textuelle classification de documents corpus spécialisé





Author: Nikola Tulechki - Ludovic Tanguy -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents