La lemmatisation de l'arabe non classique

Tuerlinckx, Laurence

DIAL.pr - BOREAL

Accès à distance ? S'identifier sur le proxy UCLouvain

La lemmatisation de l'arabe non classique

Primary tabs

download

Tuerlinckx_Lemmatisation de l'arabe non classique_JADT_105.pdf

Open access
PDF
162.35 K

Tuerlinckx, Laurence [UCL]

Les outils actuels de lemmatisation et d’analyse automatique de la langue arabe ont été conçus pour l’arabe classique ou standard (corpus littéraires, journaux…). Les recherches philologiques portant sur des textes anciens rédigés en une langue non classique (textes chrétiens en moyen arabe dans notre cas) nécessitent donc un système qui prenne en compte les variations graphiques et syntaxiques de cet état de langue. Un programme de lemmatisation formelle, adapté à ces particularités, a été élaboré dans le but premier de créer des concordances et index lemmatisés. Ce logiciel, basé non sur l’analyse automatique, mais sur la reconnaissance des formes déjà rencontrées, permet de classer les formes sous un même lemme classique, quelle que soit leur actualisation dans les textes. Les lemmes sont étiquetés relativement à leur classe morphosyntaxique telle que définie par les grammairiens arabes et sont regroupés par racine, suivant le modèle des dictionnaires classiques. Les options philologiques et la réflexion méthodologique concernant le traitement de cette langue (caractérisée par l’agglutination et la non vocalisation) seront présentées, ainsi que quelques perspectives d’exploitation de cette nouvelle base de données.

metadata

Document type	Communication à un colloque (Conference Paper) – Présentation orale avec comité de sélection
Access type	Accès libre
Publication date	2004
Language	Français
Conference	"7es Journées internationales d'Analyse statistique des Données Textuelles (JADT'04): Le poids des mots", Louvain-la-Neuve (Belgium) (du 10/03/2004 au 12/03/2004)
Peer reviewed	yes
Host document	Gérald Purnelle, Cédrick Fairon, Anne Dister (éds) ; "Le poids des mots : actes des 7es journées internationales d'analyse statistique des données textuelles,vol. 2"- p. 1069-1078 (ISBN : 978-2-930344-50-8)
Publisher	UCL Presses Universitaires de Louvain (Louvain-la-Neuve)
Publication status	Publié
Affiliation	UCL - SSH/INCA - Institut des civilisations, arts et lettres
Keywords	arabe ; moyen arabe ; lemmatisation ; forme ; lemme ; racine ; analyse ; morphologie ; philologie
Links	http://hdl.handle.net/2078.1/172355[Handle]

Bibliographic reference

Tuerlinckx, Laurence. La lemmatisation de l'arabe non classique.7es Journées internationales d'Analyse statistique des Données Textuelles (JADT'04): Le poids des mots (Louvain-la-Neuve (Belgium), du 10/03/2004 au 12/03/2004). In: Gérald Purnelle, Cédrick Fairon, Anne Dister (éds), Le poids des mots : actes des 7es journées internationales d'analyse statistique des données textuelles,vol. 2, UCL Presses Universitaires de Louvain : Louvain-la-Neuve2004, p. 1069-1078

Permanent URL

http://hdl.handle.net/2078.1/172355

User menu

La lemmatisation de l'arabe non classique

Primary tabs

Footer Help

Languages

Footer menu

User menu

Search form

You are here

La lemmatisation de l'arabe non classique

Primary tabs

Footer Help

Languages

Footer menu