Inventaire


Site en anglais

Les expressions régulières en traitement automatique des langues

Unité : TRADITAL : Centre de recherche en Traduction, interprétation, didactique et traitement automatique des langues | ULB778



Description :


Une expression régulière est une chaine de caractères (pattern en anglais), qui représente une classe de chaines de
caractères. Ainsi, l’expression « d{2}-d{2}-d{4} » représente n’importe quelle date du type 11-05-2024 ou 07-12-2023. L’expression
« ^[^s@]+@[^s@]+.[^s@]+$ » permet de vérifier la validité d’une adresse mail. Ces expressions régulières, regular
expressions en anglais, REGEX en abrégé, sont disponibles dans de nombreux outils utilisés en traduction et en traitement automatique
des langues, du traitement de texte aux mémoires de traduction et sont, bien sûr, prises en charge par les langages de
programmation comme Python.

Souvent ignorées ou mal maitrisées, elles facilitent la révision, dans le traitement de texte ou dans l’environnement de
traduction (par exemple pour transformer des dates comme dans l’exemple ci-dessus ou pour vérifier la présence ou l’absence
d’espace (éventuellement insécables) devant un nombre. En programmation web, elles sont utilisées pour vérifier la conformité
d’une adresse mail ou pour filtrer des adresses mail ou URL susceptibles d’être frauduleuses. En TAL, elles permettent
d’effectuer des recherches (et remplacements) pointues tant sur des formes (« tous les adverbes en -ment ou -mment ») que sur des
structures syntaxiques (« tous les syntagmes nominaux où deux adjectifs précèdent le nom »). Elles constituent ainsi la base
du TAL. En traduction, elles permettent de paramétrer le système de mémoire de traduction pour qu’il prenne en charge des
fichiers non standards. Alternativement, elles permettent de convertir un fichier d’un format vers un autre, de masquer en une fois
toutes les chaines de caractères à ne pas traduire ou d’en extraire des informations pertinentes. Bien utilisées, elles
évitent de fastidieuses et longues heures de préparation de fichiers, de révision ou de modifications ponctuelles.

L’objet de cette recherche est de décrire les emplois que l’on peut faire des REGEX, dans les diverses activités liées à
la traduction : traduction, préparation de fichiers, révision, gestion de corpus, programmation Python pour le TAL et dans
différents outils : traitement et éditeur de texte, mémoires de traduction, corpus, Python.

L’objectif est de fournir aux professionnels de la traduction et du TAL un panorama de la syntaxe des REGEX et de leur
utilisation dans les différents outils à leur disposition. Cette description se veut pratique, pédagogique et riche d’exemples
concrets.

Liste des responsables :


  • MERTEN Pascaline