Bonjean, Maxime
[UCL]
Legay, Axel
[UCL]
Ambroise, Jérôme
[UCL]
Ce mémoire porte sur l'utilisation d'outils de classification supervisée. Initialement, nous souhaitions les utiliser afin de découvrir de nouvelles bactériocines dans les génomes du Vibrio Cholerae, nous avons dû changer l'axe du mémoire suite à la trop grande complexité de ce domaine. Nous nous sommes dès lors intéressés à l'utilisation d'outils de classification supervisée afin de prédire si une séquence provient du chromosome ou du plasmide pour les espèces bactériennes suivantes : Escherichia Coli et Vibrio Cholerae. En effet, le séquençage actuel (NGS) ne permet pas de déterminer l'origine chromosomique ou plasmidique des contigs qu'il génère. Or, si un gène est découvert dans un de ces contigs, il est important de savoir si ce gène fait partie d’un chromosome ou d’un plasmide. Grâce à cette information, nous pourrons être capables de connaitre le mode de transmission de ce gène qui diffère en fonction de sa localisation. Nous avons dès lors recouru à une méthode basée sur des k-mers afin de caractériser des séquences de chromosomes et de plasmides. Ensuite, nous avons utilisé des outils de classification supervisée afin de faire de la prédiction sur l'origine des séquences provenant du séquençage. Les outils de classification supervisée utilisés sont le SVM et la régression logistique. Afin d'optimiser les classificateurs, nous avons testé différents paramètres pour obtenir les paramètres les plus performants. Enfin, les résultats obtenus ont été comparés à la littérature. L’utilisation de k-mers avec les outils de classification SVM et régression logistique est performante dans la discrimination chromosomique ou plasmidique de contigs provenant de V. Cholerae. Cependant, les résultats obtenus dans ce mémoire concernant Escherichia Coli sont moins concluants que ceux obtenus par mlplasmid.


Référence bibliographique |
Bonjean, Maxime. Utilisation d'outils de classification supervisée et de pattern matching pour la discrimination chromosomique et plasmidique de séquences d'ADN bactérien. Ecole polytechnique de Louvain, Université catholique de Louvain, 2021. Prom. : Legay, Axel ; Ambroise, Jérôme. |
Permalien |
http://hdl.handle.net/2078.1/thesis:33074 |