Soutenance de thèse: Traitement haute performance des données métagénomiques

Le Jeudi 23 Janvier 2020, Monsieur DAO Quang Minh, soutiendra publiquement sa thèse intitulée « Traitement haute performance des données métagénomiques »

La présentation aura lieu à 14H00 dans l’Amphithéâtre au 1er étage du bâtiment A, Institut de Recherche pour le Développement (IRD), 32 avenue Henri Varagnat, 93143 Bondy.

Elle sera suivie d’un pot auquel vous êtes conviés dans la salle adjacente.
Le jury est composé de :
  • Vincent BRETON (Rapporteur), Professor, DR CNRS
  • Sy-Vinh LE (Rapporteur), Professor, VNU-UET
  • Christophe CAMBIER (Examinateur), Professor, MCU (HDR) IRD
  • Eugeni BELDA (Examinateur), Ph.D, IR ICAN
  • Edi PRIFTI (Encadrant), Ph.D, IR ICAN
  • Jean-Daniel ZUCKER (Directeur), Professor, DR IRD
Résumé

Avec l’avènement de la technologie de séquençage de la prochaine génération, une quantité sans cesse croissante de données génomiques est produite à mesure que le coût du séquençage diminue. Cela a permis au domaine de la métagénomique de se développer rapidement. Par conséquent, la communauté bioinformatique est confrontée à des goulots d’étranglement informatiques sans précédent pour traiter les énormes ensembles de données métagénomiques. Les pipelines traditionnels de métagénomique se composent de plusieurs étapes, utilisant différentes plates-formes de calcul distribuées et parallèles pour améliorer leurs performances. Cependant, l’évolutivité de ces outils n’est pas efficace. Ils affichent de lourds frais généraux d’exécution lors du prétraitement de grandes quantités de données et ne sont pas en mesure de passer automatiquement à l’échelle supérieure pour collecter davantage de ressources informatiques. De plus, l’absence de modularité intégrée rend également leur maintenance et leur évolutivité difficiles. Ici, nous avons conçu QMSpy, une nouvelle plate-forme tout-en-un à la fois évolutive et modulaire. Dès le début, les lectures brutes de séquençage sont stockées sur stockage distribué et transformées en objets distribués, qui sont prétraités (rognés, nettoyés, filtrés, etc.), mis en correspondance avec le catalogue du génome de référence et comptés pour générer des tables d’abondance. QMSpy a été construit sur un cluster de calcul haute performance, utilisant le framework PySpark – un logiciel adaptatif qui supporte Python on Spark et étend le modèle Hadoop MapReduce. QMSpy a été testé avec des ensembles de données simulées et réelles. Dans ce pipeline, nous avons intégré des outils bioinformatiques bien connus tels que Bowtie2, Trimmomatic, Bwa, HiSat, Minimap, etc. pour traiter le séquençage des données. Notre approche prend en charge la création de workflows personnalisables en utilisant une enveloppe d’outils pour distribuer des logiciels externes dans des modules exécutables à déployer sur le cluster Spark et à exécuter en parallèle. De plus, QMSpy peut être déployé sur presque toutes les plates-formes de services informatiques à haute performance populaires telles que Google Cloud, Amazon Web Services, Microsoft Azure ou Docker et s’intégrer de manière flexible dans l’environnement d’entreprise et organisationnel tel que Hortonwork Data Platform, Salesforce, Teradata etc. En comparant QMSpy avec des ensembles de données réelles et simulées, nous avons identifié certains des facteurs les plus importants qui influencent l’exactitude du processus de quantification. Enfin, QMSpy avec ses caractéristiques telles que l’évolutivité et la modularité permettent aux bioinformaticiens de proposer de nouveaux algorithmes qui améliorent la quantification génétique, taxonomique et fonctionnelle des écosystèmes microbiens. Et nous croyons que cette ressource sera d’une grande valeur pour le domaine de la gestion de la quantitative metagenomics.

Abstract

With the advent of next-generation sequencing technology, an ever-increasing amount of genomics data is produced as sequencing cost decreases. This allowed the field of metagenomics to develop quickly. Consequently, bioinformatics community is facing unprecedented computational bottlenecks to process the massive metagenomics datasets. Traditional metagenomics pipelines are composed of multiple steps, using different distributed and parallel computational platforms to improve their performance. However, the scalability of these tools is not efficient. They display heavy runtime overheads when pre-processing large amount of data and are not able to automatically scale-up to collect more computing resources. Moreover, the lack of integrated modularity also makes their maintenance and upgradability a challenge. Here we designed QMSpy, a novel all-in-one platform that is both scalable and modular. From the beginning, raw sequencing reads are stored on distributed storage and transformed in distributed objects, which are pre-processed (trimmed, cleaned, filtered, etc.), mapped against the reference genome catalog and counted to generate abundance tables. QMSpy was built on top of high-performance computing cluster, using the PySpark framework – an adaptive software that supports Python on Spark and extends the Hadoop MapReduce model. QMSpy was tested with simulated and real datasets. In this pipeline, we integrated well-known bioinformatics tools such as Bowtie2, Trimmomatic, Bwa, HiSat, Minimap, etc. to process data sequencing. Our approach supports creating customizable workflows by using a tool wrapper to distribute external software into runnable modules to deploy on the Spark cluster and execute them in parallel. Besides, QMSpy could be deployed on almost all popular high-performance computing service platforms such as Google Cloud, Amazon Web Services, Microsoft Azure, or Docker and flexible to integrate into corporate and organizational environment such as Hortonwork Data Platform, Salesforce, Teradata etc. By benchmarking QMSpy with both real and simulated datasets, we identified some of the most important factors influencing the accuracy of quantification process. Finally, QMSpy with its features such as scalable and modularity allow bioinformaticians to propose novel algorithms that improve gene, taxonomic and functional quantification of microbial ecosystems. And we believe that this resource will be of great value to the quantitative metagenomics domain.