Colson, Jean-Pierre
[UCL]
Depuis de nombreuses années, un débat est ouvert entre les partisans de recherches basées sur les corpus (en anglais « corpus-based ») et dérivées des corpus (« corpus-driven »). Même si plusieurs auteurs soutiennent que ces deux manières d’utiliser les ressources linguistiques présentent des différences minimes, la question mérite d’être examinée plus en détails dans le cas de la variation phraséologique. Le choix des unités phraséologiques retenues pour mesurer le degré de variation diatopique peut en effet varier selon la méthodologie retenue : une approche basée sur les corpus partira d’unités souvent idiomatiques, extraites du dictionnaire ou de l’usage, dont l’on vérifie la fréquence ou les contextes d’utilisation dans des variantes d’une langue ou même dans des langues apparentées ; à l’inverse, une approche dérivée des corpus permet d’utiliser directement la sélection automatisée des unités phraséologiques au sens large, et mesure globalement le profil phraséologique des variantes ou langues concernées. Les deux méthodologies seront illustrées par des exemples. La constitution de corpus ciblés pour étudier la variation phraséologique sera également abordée. Cette dernière nécessite en effet des corpus de taille importante, car la plupart des unités phraséologiques offrent moins d’une occurrence par million de mots (tokens). Cette constatation mène naturellement à la création de corpus issus de la Toile, à partir d’outils qui ont aujourd’hui fait leurs preuves. Le traitement de telles données par des algorithmes pose toutefois des questions pratiques mais aussi théoriques.
Bibliographic reference |
Colson, Jean-Pierre. Ressources et outils en phraséologie informatique.IVe Congrès international de dialectologie et de sociolinguistique. Variations, phraséologie et ressources (Paris, Université de Paris-Sorbonne, du 07/09/2016 au 09/09/2016). |
Permanent URL |
http://hdl.handle.net/2078.1/176878 |