Thèse de Pierre Pericard

Algorithmes pour la reconstruction de séquences de marqueurs conservés dans des données de métagénomique

Les progrès récents en termes de séquençage d'ADN permettent maintenant d'accéder au matériel génétique de communautés microbiennes extraites directement d'échantillons environnementaux naturels. Ce nouveau domaine de recherche, appelé métagénomique, a de nombreuses applications en santé, en agro-alimentaire, en écologie, par exemple. Analyser de tels échantillons demande toutefois de développer de nouvelles méthodes bio-informatiques pour déterminer la composition taxonomique de la communauté étudiée. L'identification précise des organismes présents est en effet une étape essentielle à la compréhension des écosystèmes même les plus simples. Cependant, les technologies de séquençage actuelles produisent des fragments d'ADN courts et bruités, qui ne couvrent que partiellement les séquences complètes des gènes, ce qui pose un véritable défi pour l'analyse taxonomique à haute résolution. Nous avons développé MATAM, une nouvelle méthode bio-informatique dédiée à la reconstruction rapide et sans erreurs de séquences complètes de marqueurs phylogénétiques conservés, à partir de données brutes de séquençage. Cette méthode est composée d'une succession d'étapes qui réalisent la construction et l'analyse d'un graphe de chevauchement de lectures. Nous l'avons appliquée à l'assemblage de la petite sous-unité de l'ARN ribosomique sur des métagénomes simulés, synthétiques et réels. Les résultats obtenus sont de très bonne qualité et améliorent l'état de l'art.

Jury

- Directeur de thèse : Hélène TOUZET - Rapporteurs : Claudine MÉDIGUE, Dominique LAVENIER - Examinateurs : Laetitia VERMEULEN-JOURDAN, Pierre PEYRET, Samuel BLANQUART

Thèse de l'équipe Bonsai soutenue le 27/10/2017