on September 4, 2025 at 9:00 am at Bâtiment ESPRIT - Atrium
Cette thèse d'habilitation présente un ensemble de recherches sur l'indexation des données d'acides nucléiques, explorant un éventail de structures de données conçues pour gérer et analyser les ensembles de données massifs produits par les technologies de séquençage modernes. En bioinformatique contemporaine, la croissance exponentielle des données de séquence a déplacé le principal défi de l'acquisition de données vers notre capacité à stocker, rechercher et interpréter efficacement ces informations. Ce travail documente un parcours de recherche personnel présentant une hiérarchie de représentations pour les données de séquence, des lectures brutes aux k-mers, contigs et, enfin, empreintes et croquis compressés. L'argument principal est qu'en abstrayant progressivement les informations de séquence et en acceptant des compromis entre précision et échelle, nous pouvons développer des outils informatiques puissants pour répondre à des questions biologiques jusqu'alors insolubles. Le document détaille un portefeuille de contributions originales, commençant par des méthodes visant à améliorer la fidélité des données de séquençage brutes (ELECTOR, CONSENT) et progressant vers des structures de données hautement optimisées pour l'indexation exacte des k-mers (BLIGHT, LPHASH). Elle explore également comment des graphes d'assemblage raffinés peuvent servir de structures intermédiaires performantes pour des tâches telles que la correction d'erreurs (BCOOL) et l'assemblage tenant compte des haplotypes (BWISE). L'analyse de collections de données massives, comprenant des milliers, voire des millions d'ensembles de données, est un axe majeur, où l'on passe des représentations exactes aux méthodes probabilistes. Cela est illustré par des outils comme PAC et REINDEER2, qui permettent des requêtes rapides de présence/absence ou d'abondance dans d'énormes archives de séquences à l'aide d'index partitionnés et compressés. Ces méthodes permettent d'interroger des bases de données entières comme GenBank ou de vastes cohortes cliniques pour des signatures génétiques spécifiques, allant au-delà de l'analyse par échantillon unique ou par référence. L'outil REINDEER2 illustre cette approche à grande échelle, en fournissant une méthode permettant d'indexer efficacement les abondances de k-mers dans des milliers d'ensembles de données RNA-seq, ouvrant ainsi de nouvelles perspectives pour la découverte de biomarqueurs en interrogeant toute la diversité transcriptionnelle présente dans de vastes cohortes de patients. La thèse conclut par une perspective prospective sur les défis et opportunités futurs. Il préconise l'exploitation de la compression delta pour les référentiels de données en plein essor, l'intégration de modèles de fondation génomique en tant que composants algorithmiques, le déplacement des paradigmes informatiques vers des architectures basées sur GPU et l'élargissement de l'alphabet fondamental de l'analyse de séquence pour coder plus richement les informations biologiques comme les modifications épigénétiques.
Rapporteurs : Claire Lemaitre, Directrice de recherches - IRISA, Inria, Rennes Raluca Uricaru, Maîtresse de conférence - LaBRI, Bordeaux Puglisi Simon, Professeur - Department of Computer Science, University of Helsinki
Examinateurs : Laurent Jacob, Directeur de recherche - LCQB, Sorbonne Université, Paris Jean-Stéphane Varré, Professeur - CRIStAL, Université de Lille
Garant : Mikaël Salson, Professeur - CRIStAL, Université de Lille