Tuerlinckx, Laurence
[UCL]
Les outils actuels de lemmatisation et d’analyse automatique de la langue arabe ont été conçus pour l’arabe classique ou standard (corpus littéraires, journaux…). Les recherches philologiques portant sur des textes anciens rédigés en une langue non classique (textes chrétiens en moyen arabe dans notre cas) nécessitent donc un système qui prenne en compte les variations graphiques et syntaxiques de cet état de langue. Un programme de lemmatisation formelle, adapté à ces particularités, a été élaboré dans le but premier de créer des concordances et index lemmatisés. Ce logiciel, basé non sur l’analyse automatique, mais sur la reconnaissance des formes déjà rencontrées, permet de classer les formes sous un même lemme classique, quelle que soit leur actualisation dans les textes. Les lemmes sont étiquetés relativement à leur classe morphosyntaxique telle que définie par les grammairiens arabes et sont regroupés par racine, suivant le modèle des dictionnaires classiques. Les options philologiques et la réflexion méthodologique concernant le traitement de cette langue (caractérisée par l’agglutination et la non vocalisation) seront présentées, ainsi que quelques perspectives d’exploitation de cette nouvelle base de données.
Bibliographic reference |
Tuerlinckx, Laurence. La lemmatisation de l'arabe non classique.7es Journées internationales d'Analyse statistique des Données Textuelles (JADT'04): Le poids des mots (Louvain-la-Neuve (Belgium), du 10/03/2004 au 12/03/2004). In: Gérald Purnelle, Cédrick Fairon, Anne Dister (éds), Le poids des mots : actes des 7es journées internationales d'analyse statistique des données textuelles,vol. 2, UCL Presses Universitaires de Louvain : Louvain-la-Neuve2004, p. 1069-1078 |
Permanent URL |
http://hdl.handle.net/2078.1/172355 |