Soutenance de thèse de Thomas Baudeau

Etude des propriétés des méthodes de mapping de lectures longues virales

le 30 juin 2025 à 14:00 à Amphi Turing, Bât. M3

L’émergence des technologies de séquençage de troisième génération, en particulier les lectures longues (long reads) produites par Oxford Nanopore Technologies et Pacific Biosciences, a profondément modifié les stratégies d’alignement des séquences en bioinformatique. Initialement conçus pour traiter des lectures courtes, les algorithmes de mapping ont dû évoluer afin de prendre en compte les caractéristiques propres aux long reads, notamment un taux d’erreur plus élevé, la fréquence accrue d’insertions et de délétions, ainsi que des volumes de données considérables. Cette thèse propose une étude approfondie des différentes stratégies algorithmiques mises en œuvre dans les outils de mapping pour long reads. Après une présentation des fondements théoriques du mapping, nous analysons les compromis nécessaires à une gestion efficace de ces lectures complexes, tant du point de vue de la performance que de la précision des alignements. Dans ce contexte, les virus constituent un cas d’étude particulièrement pertinent. En effet, leurs caractéristiques biologiques spécifiques associées à la présence fréquente de matériel génétique viral mélangé à celui de l’hôte, soulèvent des défis méthodologiques majeurs. Cette thèse s’intéresse aux implications de ces spécificités virales sur la conception, l’évaluation et l’utilisation des outils de mapping adaptés aux lectures longues. Une attention particulière est portée à la comparaison et à l’évaluation (benchmarking) d’outils de mapping sur des jeux de données viraux, simulés et réels. Nous examinons leur robustesse, leur sensibilité, ainsi que leur impact sur des analyses bioinformatiques en aval, telles que l’appel de variants (variant calling). En complément, nous proposons une nouvelle méthodologie pour améliorer la détection de structures transcriptionnelles virales complexes, notamment les ARN sous-génomiques (sgRNA) dans le cas du SARS-CoV-2, tout en mettant en lumière l’influence de certaines pratiques sur les résultats.

Jury

M. Mikaël SALSON Université de Lille Directeur de thèse, M. Cédric NOTREDAME CRG - Center for Genomic Regulation Rapporteur, M. Dominique LAVENIER IRISA UMR-6074 Rapporteur, Mme Anne GOFFARD UFR 3S Faculté de Pharmacie ,Université de Lille Examinatrice, Mme Jasmijn BAAIJENS TU Delft Examinatrice, Mme Camille MARCHET CRIStAL Co-encadrante de thèse.

Plus d'actualités