Séminaire doctoral "Récolte, nettoyage et enrichissement de corpus"

CENTAL Louvain-La-Neuve

En collaboration avec l'ULB, le CENTAL organise un séminaire doctoral sur la récolte, le nettoyage et l'enrichissement de corpus.

Présentation du séminaire

Le travail sur corpus

Le travail sur corpus occupe une place importante en langues, lettres et traductologie. À moins d’avoir la chance de travailler sur un corpus déjà constitué et en bon état, il faut le plus souvent commencer par récolter des « documents » (des textes, des productions écrites, des enregistrements, des vidéos, des données issues de médias sociaux…) et les accompagner de métadonnées.

Il est souvent nécessaire de transcrire ces documents depuis des enregistrements audios, des vidéos ou des manuscrits. Il faut ensuite généralement nettoyer et normaliser les données : il peut être question de corriger les erreurs produites lors de la reconnaissance optique de caractères, de modifier l’encodage des caractères, ou encore de « simplifier » certains caractères afin de permettre leur traitement par des outils ultérieurs (supprimer les espaces insécables, transformer les « œ » en « oe », remplacer les tirets cadratins ou semi cadratins par des parenthèses, les guillemets orientés vers la gauche et la droite par des guillemets droits, etc.). 

La plupart du temps, il faut aussi corriger et modifier les métadonnées (valeurs aberrantes ou incohérentes, dates mal formées ou impossibles, langues inexistantes, âges invraisemblables, variantes dans les noms des pays, etc.). 

À ce stade, le corpus peut déjà être exploité. Souvent toutefois, le corpus est annoté à l’aide de différents outils. Les annotations peuvent porter sur l’ensemble d’un document ou sur des sous-parties d’un document (des mots, des groupes de mots, etc.). Elles peuvent être réalisées manuellement, semi automatiquement ou automatiquement. Parfois, il est nécessaire, avant d’annoter ou d’exploiter le corpus, d’utiliser d’autres outils : des lemmatiseurs pour travailler sur les formes canoniques des mots, des reconnaisseurs d’entités nommées afin d’identifier les noms de personnes, de lieux, d’institutions ou encore les dates, des étiqueteurs morphosyntaxiques pour déterminer si tel mot est un nom, un adjectif ou un pronom, des étiqueteurs syntaxiques pour identifier des groupes de mots et les relations que les mots ou groupes de mots entretiennent entre eux sur le plan grammatical.

Le séminaire doctoral

Ce séminaire doctoral interuniversitaire entend se consacrer aux problèmes réels qui sont rencontrés par les personnes qui décident de récolter un corpus, de le manipuler et de le diffuser. Son objectif est d’apporter des réponses concrètes à ces problèmes ; il n’a par contre pas pour but de montrer tous les outils de traitement qui existent en fonction des différents usages qui peuvent être faits de tel ou tel corpus. Il se concentrera sur les tâches qui sont les plus communes aux disciplines de l’ED3bis, et s’intéressera particulièrement aux corpus sous une forme écrite ou transcrite. Cela ne veut pas dire pour autant que le séminaire n’est pas destiné aussi aux personnes travaillant sur de l’oral ou sur la vidéo, par exemple. Il montrera une chaine typique de traitements qui sont appliqués à un corpus, depuis sa constitution jusqu’à son exploitation.

 

Intervenants

Damien De Meyere, UCLouvain

Max De Wilde, ULB

Hubert Naets, UCLouvain

Patrick Watrin, UCLouvain

 

Organisation

Max De Wilde, ULB

Magali Paquot, UCLouvain

 

Informations pratiques et inscription

Vous trouverez plus d'informations sur la page web du séminaire : https://cental.uclouvain.be/seminaire_ed3/.