Transipedia

Transipedia : Signatures transcriptionnelles pour une analyse RNA-seq globale

Coordinateur : Daniel Gautheret (Institut de Biologie Intégrative de la Cellule)

Equipe Bonsai du Groupe Thématique MSV

Partenaires : Université de Lille, CRIStAL, Rayan Chikhi, Chargé de Recherche CNRS, I2BC Institut de Biologie Intégrative de la Cellule,IRMB Cellules souches, plasticité cellulaire, régénération tissulaire et immunothérapie des maladies inflammatoires

Résumé :
La diversité des transcrits est le produit de variations génétiques, transcriptionnelles et post-transcriptionnelles. La combinaison de ces trois effets produit pour chaque espèce un catalogue de transcrit virtuellement illimité. La technologie de séquençage profond RNA-seq fournit un aperçu fascinant de cette diversité par sa capacité à mesurer les niveaux d’expression des transcrits ainsi qu’à en découvrir de nouveaux. Cependant, les logiciels actuels d’analyse de données RNA-seq ne permettent pas d’exploiter pleinement ce potentiel. Les outils les plus courants impliquent des procédures de mapping et/ou d’assemblage qui sont sujettes à erreurs et passent difficilement à l’échelle des jeux de données RNA-seq disponibles publiquement (environ 235.000 pour l’humain seul). De récentes approches à base de k-mers ont considérablement amélioré le temps de calcul et l’évolutivité de l’analyse RNA-seq. Toutefois ces méthodes sont limitées car elles reposent sur un transcriptome de référence et ne peuvent pas prédire de nouveaux événements transcriptionnels.

Nous proposons ici un système d’analyse des variants de transcription par RNA-seq fondé sur un concept de signature de k-mers. Ce concept utilise une information de séquence minimale pour capturer chaque événement, qu’il soit transcriptionnel, post-transcriptionnel ou génétique, indépendamment d’un transcriptome de référence. Nous développerons une nouvelle structure de données pour stocker des signatures dans une « encyclopédie » efficace qui associera les signatures à une variété d’événements biologiques tels que variants d’épissage, SNV, indels, ARN circulaires, transcrits de fusion, etc. Pour permettre l’interrogation de grands jeux de données RNA-seq avec des signatures k-mer, nous développerons une nouvelle structure d’index pouvant lier efficacement un k-mer à toutes ses occurrences dans les reads d’une banque RNA-seq.

En parallèle, des outils d’inférence de signature seront développés pour permettre la découverte de nouvelles signatures k-mer d’intérêt biologique à partir de données d’expériences RNA-seq. Nous rechercherons spécifiquement des signatures prédictives liées aux maladie humaines, en exploitant les grandes collections publiques de données RNA-seq médicales. Notre approche sans hypothèse a le potentiel de révéler d’importants biomarqueurs diagnostiques ou pronostiques ayant échappé aux criblages précédents, tels que des ARN non codants, variants d’épissage, fusions de gènes et même ARN étrangers provenant de pathogènes. Toutes les signatures inférées seront intégrées dans l’encyclopédie.

L’encyclopédie et les outils de requête associés seront fournis à la fois sous forme d’outils open source autonomes et via des interfaces Web. Pour l’utilisateur final, TranSiPedia permettra (1) de récupérer le profil d’expression de toute signature k-mer de l’encyclopedie ou fournie par lui, dans un très grand jeu de banques RNA-seq (>10,000) et (2) d’analyser ses propres banques RNA-seq pour y rechercher les signatures de l’encyclopédie. Des prototypes fonctionnels sont déjà disponibles pour chaque élément du système.

Les principales retombées du projet comprennent (1) la capacité de réanalyser les projets RNA-seq dans tout type d’organisme, permettant l’identification d’une diversité d’évènements transcriptionnels sans précédent ; (2) la découverte de biomarqueurs ARN de valeur diagnostique et pronostique ; (3) une nouvelle façon pour les groupes gérant de grands jeux de données publics d’offrir l’accès à leurs données ; (4) à plus long terme, l’émergence d’un écosystème pour la curation d’un index d’événements transcriptomiques à base de signatures k-mer avec des applications dans le domaine de la santé et de la recherche ; et (5) une plate-forme puissante pour les services commerciaux que les partenaires industriels peuvent associer à la curation manuelle et à l’apprentissage automatique pour développer des applications biologiques ou médicales ciblées.