Accueil

contact

Retrouvez nos coordonnées
sur la page
Informations pratiques

Agenda de la délégation de Fontainebleau

Retrouvez tous les événements passés ou à venir ...

Le 7 mai 2021

Soutenance de thèse de Romain MENEGAUX

Représentations pour l'apprentissage statistique à grande échelle en génomique

Soutenance de thèse de Romain MENEGAUX

Résumé de la thèse en français

Le coût du séquençage de l'ADN a été divisé par 100 000 en seulement 15 ans. Grâce à cette révolution technologique, des volumes de données de plus en plus grands arrivent de domaines variés, posant de nouvelles problématiques informatiques. Comment analyser et stocker les séquences d'ADN de manière efficiente? Un domaine ayant grandement bénéficié de cette avancée est la métagénomique, qui cherche à caractériser et identifier les microbes -- bactéries, virus -- en séquençant puis analysant leur ADN. Or le résultat d'une expérience de séquençage se compte en milliards de petits fragments d'ADN (reads), mélangés aléatoirement. Une étape cruciale en bioinformatique est d'identifier le génome d'origine de chacun de ces fragments, problème dit du taxonomic binning. Jusqu'à récemment, les méthodes étaient basées sur l'alignement des séquences à des génomes de référence. Le nombre de ces génomes augmentant, ces méthodes d'alignement sont devenues trop lentes et on laissé place à un nouveau standard: le pseudo-alignement. Celui-ci consiste à chercher des sous-séquences du read dans une base de donnée constituée au préalable.

Résumé de la thèse en anglais

The cost of DNA sequencing has been divided by 100,000 in the past 15 years. Brought along by this technological revolution, ever larger volumes of data are coming in from diverse fields and problems, raising new computational challenges. How can we efficiently store and analyze DNA sequences? A modern DNA sequencing experiment outputs billions of short DNA fragments (reads), in random order. A crucial step in the bioinformatics analysis pipeline is to match those fragments to their parent genomes, a problem called taxonomic binning. Up until a few years ago alignment-based strategies were the norm, which were largely based on string-matching algorithms. However these have become too slow for the ever-growing amount of available sequenced genomes. More recently so-called pseudo-alignment strategies have become standard. These hold databases of large sub-strings and look for matches in the query sequences. Machine learning methods have shown promising success in classifying biological sequences and in this thesis we will investigate these methods for taxonomic binning. Firstly, we present an algorithm, fastDNA{}, that embeds sequences in a continuous vector space by first splitting them into short kmers{} (substrings of length $k$) and learning an embedding for each kmer{}. The embedding is then run through a linear classifier. In the second part of this thesis we will present Brume{}, an extension to fastDNA{} that allow for longer k-mers, using the de Bruijn graph. Finally we will introduce Phylo-HS, a structured loss for neural network-based taxonomic classification.

 

Titre anglais : Continuous embeddings for large-scale machine learning in genomics
Date de soutenance : vendredi 7 mai 2021 à 14h00
Adresse de soutenance : 60 Boulevard Saint-Michel, 75272 Paris - Zoom
Directeur de thèse : Jean-Philippe VERT

> plus d'informations sur le site dédié Soutenance de thèse de Romain MENEGAUX - Mines Paris - PSL

Agenda de la délégation de Fontainebleau - Mines Paris - PSL
Partager

actualité

Un docteur CRI à UCL avec la ministre de l'ESR

International Un docteur CRI à UCL avec la ministre de l'ESR Robin Le Conte des Floris, jeune docteur de la thèse…
> En savoir +

Séminaire HPC / thèse à Rabat

Formation Séminaire HPC / thèse à Rabat Claude Tadonki, enseignant-chercheur au CRI, a…
> En savoir +

CloudTech au Maroc

Formation CloudTech au Maroc   Claude Tadonki, enseignant-chercheur au Centre de recherche en informatique…
> En savoir +

Samuel Forest, élu membre de l’Académie des Sciences

Formation Samuel Forest, élu membre de l’Académie des… Samuel Forest lors de sa réception à…
> En savoir +

Les politiques publiques doivent-elles sauver des vies ou des années de vie en plus ?

Formation Les politiques publiques doivent-elles sauver des… Photo de Andre Taissin sur Unsplash François…
> En savoir +

Prix TTI.5 de la controverse environnementale

Formation Prix TTI.5 de la controverse environnementale Le 31 mai, à la Maison de l’Océan à…
> En savoir +

+ Toutes les actualités

Plan du site
Contacts Mentions légales efil.fr © 2014 Mines Paris - PSL