Leemans, Hugo
[UCL]
Fairon, Cédrick
[UCL]
Le lemmatiseur LGeRM est un outil qui propose une séries de lemmes pour chacune des formes des textes qui lui sont soumis. Actuellement, il fonctionne pour tous les stades du français mais est développé particulièrement pour le moyen français. L’outil a été conçu pour que le lemme correct se trouve dans la liste, aussi restreinte que possible. Malgré tout, LGeRM produit du « bruit », tous les lemmes ne sont pas corrects. La motivation pratique du travail est de faire en sorte de réduire ce bruit, pour les textes en moyen français. Les lemmes proposés par LGeRM, pour une forme donnée, n’entrent pas tous dans la même catégorie morphosyntaxique. L’idée de base pour résoudre le problème est que si l’on parvenait à déterminer la catégorie morphosyntaxique d’un forme donnée, on pourrait exclure les lemmes proposés par LGeRM dont la catégorie n’est pas identique. Le travail effectué a consisté en l'entrainement de paramètres statistiques qui, au vu du contexte qui entourent les formes, propose pour chaque l'étiquette morphosyntaxique qui lui est la plus adéquate. Une grande partie du mémoire est consacrée à la présentation des bases théoriques nécessaires.


Référence bibliographique |
Leemans, Hugo. Traitement automatique du moyen français : analyse de données, étiquetage morphosyntaxique et désambiguïsation contextuelle. Faculté de philosophie, arts et lettres, Université catholique de Louvain, 2018. Prom. : Fairon, Cédrick. |
Permalien |
http://hdl.handle.net/2078.1/thesis:16647 |