en fr Comparative genomics with duplicated genes: theoretical study and algorithms Comparaisons de génomes avec gènes dupliqués : étude théorique et algorithmes Report as inadecuate




en fr Comparative genomics with duplicated genes: theoretical study and algorithms Comparaisons de génomes avec gènes dupliqués : étude théorique et algorithmes - Download this document for free, or read online. Document in PDF available to download.

1 LINA - Laboratoire d-Informatique de Nantes Atlantique

Abstract : Comparative genomics consists in studying similarities-dissimilarities between genomes, and can be used to find relations between species in order to compute, for example, phylogenetic trees. Moreover, comparative genomics highlights conserved areas in genomes during the evolution and emphasizes sets of functionnal genes. In this thesis, we are interested in computing measures between two genomes with duplicated genes and, more particularly, we investigate breakpoint, adjacency, common interval and conserved interval based measures. We first present some theoretical results by proving the NP-Completeness or the APX-Hardness of most of the studied problems. We then propose several methods to compute distances between two genomes: i an exact approach based on a transformation into a pseudo-boolean problem ii a heuristic iii a hybrid method using the exact method and the above mentioned heuristic. We next show their respective qualities on real data. Finally, we propose a general protocol to compute common intervals and highlight their functional aspects.

Résumé : La génomique comparative étudie les similarités et-ou les dissimilarités entre génomes et permet d-établir des relations entre les espèces afin notamment de construire des phylogénies. Elle permet également de mettre en évidence des régions conservées au sein des génomes et de trouver ainsi des ensembles de gènes impliqués dans des processus biologiques conservés au cours de l-évolution. Dans ce mémoire, nous nous intéressons au calcul de mesures entre deux génomes en présence de gènes dupliqués, et plus particulièrement aux mesures à base de points de cassure, d-adjacences, d-intervalles communs et d-intervalles conservés. Suivant une démarche informatique, nous proposons tout d-abord une étude avancée de la complexité algorithmique des problèmes rencontrés, en prouvant notamment pour la plupart d-entre eux soit leur NP-Complétude soit leur APX-Difficulté. Par la suite, nous exposons plusieurs méthodes de calcul de mesures entre deux génomes, à savoir i une approche exacte basée sur une transformation en un problème de contraintes à variables booléennes, ii une heuristique et iii une méthode hybride qui s-appuie sur la méthode exacte et l-heuristique proposées. Par une étude sur un jeu de données réel, nous montrons les qualités respectives de ces méthodes. Enfin, nous proposons un protocole de calcul des intervalles communs et mettons en évidence, par son utilisation et par un outil de visualisation, l-aspect fonctionnel de certains intervalles communs.

en fr

Keywords : comparative genomics genomic distances computational complexity breakpoint adjacency common interval conserved interval

Mots-clés : génomique comparative distances intergénomiques complexité algorithmique point de cassure adjacence intervalle commun intervalle conservé





Author: Sébastien Angibaud -

Source: https://hal.archives-ouvertes.fr/



DOWNLOAD PDF




Related documents