en fr Methodology for assessing consistency between multiple representations for spatial databases integration.An approach combining the use of metadata and machine learning. Méthodologie dévaluation de la cohérence inter-reprReport as inadecuate




en fr Methodology for assessing consistency between multiple representations for spatial databases integration.An approach combining the use of metadata and machine learning. Méthodologie dévaluation de la cohérence inter-repr - Download this document for free, or read online. Document in PDF available to download.

1 COGIT - Conception Objet et Généralisation de l-Information Topographique

Abstract : Nowadays most databases are run independently. An independence that leads to a series ofproblems: repeated efforts of maintenance and updating, difficulty in proceeding with an analysis atvarious levels and no guarantee of coherence between sources.Joint management of these sources requires them to be integrated in order to define the explicitlinks between the various bases and to provide a unified vision. Our thesis deals with this issue. Itconcentrates in particular on the means of relating data and of assessing coherence between multiplerepresentations. We have sought to systematically analyse each difference in representation betweenmatching data so as to determine whether it results from different criteria used for data capture or fromerrors in the capture itself, the aim being to ensure coherent data integration.In order to study the conformity of representations, we suggest exploiting existing databasespecifications. These documents describe specific selection and modelling rules for objects. They arereference metadata used to determine whether representations are equivalent or incoherent. But theiruse is insufficient since specifications described in a natural language can be imprecise or incomplete.So the data contained in the bases is a second interesting source of knowledge. If one uses machinelearning techniques to analyse how they tally, it becomes possible to establish evaluation rules thatenable a justification of the conformity of representations.The methodology we put forward is based upon these elements. It consists in a coherenceevaluation process and a knowledge acquisition proceeding. The process comprises several steps: dataenrichment, intra-base control, matching, inter-bases control, and the final assessment. Each of thesesteps exploits knowledge inferred from the specifications or induced from the data through learning.The benefit of using machine learning techniques is twofold: not only does it enable to acquireevaluation rules, it also reveals the discrepancy tolerated in the data when compared to the writtenspecifications.This approach has been carried out on NGI databases that showed different levels of detail.

Résumé : A l-heure actuelle, la plupart des bases de données spatiales sont gérées de manière indépendante.Cette indépendance pose différents problèmes : elle multiplie les efforts de maintenance et de mise àjour, elle rend difficile la mise en œuvre d-analyses multi-niveaux et ne garantit pas une cohérenceentre les sources.Une gestion conjointe de ces sources nécessite leur intégration qui permet de définir des liensexplicites entre les bases et d-en fournir une vision unifiée. Notre thèse s-inscrit dans ce cadre. Le sujetque nous traitons porte en particulier sur la mise en correspondance des données et l-évaluation de lacohérence inter-représentations. Nous cherchons à analyser automatiquement chaque différence dereprésentation entre les données appariées afin d-en déduire si celle-ci résulte des critères de saisiedifférents des bases ou d-erreurs de saisie. Cette évaluation vise à garantir une intégration cohérentedes données.Pour étudier la conformité des représentations nous proposons d-exploiter les spécifications desbases. Ces documents décrivent les règles de sélection et de modélisation des objets. Ils constituentdes métadonnées de référence pour juger si les représentations sont équivalentes ou incohérentes.L-utilisation de ces documents est toutefois insuffisante. Les spécifications décrites en langue naturellepeuvent être imprécises ou incomplètes. Dans ce contexte, les données des bases constituent uneseconde source de connaissances intéressante. L-analyse des correspondances à l-aide de techniquesd-apprentissage automatique permet d-induire des règles rendant possible la justification de laconformité des représentations.La méthodologie que nous proposons repose sur ces éléments. Elle se compose de deux méthodes :MECO et MACO. La première est la Méthode d-Evaluation de la COhérence. Elle comprend plusieursétapes : l-enrichissement des données, le contrôle intra-base, l-appariement, le contrôle inter-bases etl-évaluation finale. Chacune de ces étapes exploite des connaissances déduites des spécifications ouinduites des données par apprentissage automatique, en appliquant MACO (Méthode d-Acquisition deconnaissances pour l-évaluation de la COhérence). L-intérêt d-utiliser l-apprentissage est double. Outrele fait qu-il permet d-acquérir des règles pour l-évaluation, il met en évidence l-écart toléré sur lesdonnées par rapport aux spécifications papiers.Notre approche a été mise en œuvre sur des bases de données de l-IGN présentant différentsniveaux de détail.

en fr

Keywords : spatial database integration consistency assessement machine learning data matching multirepresentation knowledge acquisition specification metadata

Mots-clés : intégration de bases de données spatiales multi-représentation appariement cohérence multi-échelles spécifications acquisition de connaissances apprentissage automatique métadonnées





Author: David Sheeren -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents