Retrouvez nos coordonnées
sur la page
Informations pratiques
Le coût du séquençage de l'ADN a été divisé par 100 000 en seulement 15 ans. Grâce à cette révolution technologique, des volumes de données de plus en plus grands arrivent de domaines variés, posant de nouvelles problématiques informatiques. Comment analyser et stocker les séquences d'ADN de manière efficiente? Un domaine ayant grandement bénéficié de cette avancée est la métagénomique, qui cherche à caractériser et identifier les microbes -- bactéries, virus -- en séquençant puis analysant leur ADN. Or le résultat d'une expérience de séquençage se compte en milliards de petits fragments d'ADN (reads), mélangés aléatoirement. Une étape cruciale en bioinformatique est d'identifier le génome d'origine de chacun de ces fragments, problème dit du taxonomic binning. Jusqu'à récemment, les méthodes étaient basées sur l'alignement des séquences à des génomes de référence. Le nombre de ces génomes augmentant, ces méthodes d'alignement sont devenues trop lentes et on laissé place à un nouveau standard: le pseudo-alignement. Celui-ci consiste à chercher des sous-séquences du read dans une base de donnée constituée au préalable.
The cost of DNA sequencing has been divided by 100,000 in the past 15 years. Brought along by this technological revolution, ever larger volumes of data are coming in from diverse fields and problems, raising new computational challenges. How can we efficiently store and analyze DNA sequences? A modern DNA sequencing experiment outputs billions of short DNA fragments (reads), in random order. A crucial step in the bioinformatics analysis pipeline is to match those fragments to their parent genomes, a problem called taxonomic binning. Up until a few years ago alignment-based strategies were the norm, which were largely based on string-matching algorithms. However these have become too slow for the ever-growing amount of available sequenced genomes. More recently so-called pseudo-alignment strategies have become standard. These hold databases of large sub-strings and look for matches in the query sequences. Machine learning methods have shown promising success in classifying biological sequences and in this thesis we will investigate these methods for taxonomic binning. Firstly, we present an algorithm, fastDNA{}, that embeds sequences in a continuous vector space by first splitting them into short kmers{} (substrings of length $k$) and learning an embedding for each kmer{}. The embedding is then run through a linear classifier. In the second part of this thesis we will present Brume{}, an extension to fastDNA{} that allow for longer k-mers, using the de Bruijn graph. Finally we will introduce Phylo-HS, a structured loss for neural network-based taxonomic classification.
Titre anglais : Continuous embeddings for large-scale machine learning in genomics
Date de soutenance : vendredi 7 mai 2021 à 14h00
Adresse de soutenance : 60 Boulevard Saint-Michel, 75272 Paris - Zoom
Directeur de thèse : Jean-Philippe VERT
International
Un docteur CRI à UCL avec la ministre de l'ESR
Robin Le Conte des Floris, jeune docteur de la thèse
> En savoir +
Formation
Séminaire HPC / thèse à Rabat
Claude Tadonki, enseignant-chercheur au CRI, a
> En savoir +
Formation
CloudTech au Maroc
Claude Tadonki, enseignant-chercheur au Centre de recherche en informatique
> En savoir +
Formation
Samuel Forest, élu membre de l’Académie des
Samuel Forest lors de sa réception à
> En savoir +
Formation
Les politiques publiques doivent-elles sauver des
Photo de Andre Taissin sur Unsplash François
> En savoir +
Formation
Prix TTI.5 de la controverse environnementale
Le 31 mai, à la Maison de l’Océan à
> En savoir +