Séminaire doctoral "Récolte, nettoyage et enrichissement de corpus" - PREMIÈRE JOURNÉE (1 et 2/4) : Acquisition des données langagières et des métadonnées associées, nettoyage et pérennisation

CENTAL Louvain-La-Neuve

février 25, 2022

9h-17h

Ce séminaire doctoral interuniversitaire entend se consacrer aux problèmes réels qui sont rencontrés par les personnes qui décident de récolter un corpus, de le manipuler et de le diffuser. Son objectif est d’apporter des réponses concrètes à ces problèmes ; il n’a par contre pas pour but de montrer tous les outils de traitement qui existent en fonction des différents usages qui peuvent être faits de tel ou tel corpus. Il se concentrera sur les tâches qui sont les plus communes aux disciplines de l’ED3bis, et s’intéressera particulièrement aux corpus sous une forme écrite ou transcrite. Cela ne veut pas dire pour autant que le séminaire n’est pas destiné aussi aux personnes travaillant sur de l’oral ou sur la vidéo, par exemple. Il montrera une chaine typique de traitements qui sont appliqués à un corpus, depuis sa constitution jusqu’à son exploitation.


Description de la demi-journée 

La constitution d’un corpus peut se faire de plusieurs manières :

  • à partir de zéro : on se rend dans une classe, on demande à des élèves ou des étudiants de produire un texte et on recueille des informations sur ces élèves (âge, sexe/genre, langue, année scolaire, etc.) ; on peut également enregistrer les étudiants dont on transcrit les productions ;
  • à partir de données existantes : on récupère des textes (romans, livres, documents juridiques, rapports médicaux…) dont certains devront être numérisés (automatiquement avec une OCR ou manuellement) ; on accompagne ces documents de métadonnées ; ou on récupère des interviews radio ou des journaux télévisés qu’on transcrit ; tantôt encore on télécharge un volume plus ou moins important de tweets ou de fils de discussion Reddit avec leurs métadonnées ; 
  • à partir de corpus déjà existants : il est parfois nécessaire de fusionner les données et les métadonnées de différents corpus qui ne sont pas au même format, ou encore de retravailler ces données et métadonnées.

 

Quelle que soit l’approche utilisée, un certain nombre de problèmes sont récurrents. Ainsi, certaines métadonnées récoltées sont régulièrement difficiles à exploiter : on n’a pas spécifié de format de date et, selon les habitudes des pays dont ils proviennent, les répondants ont organisé de façon différente les jours, mois et années, rendant impossible de savoir si « 09/12/07 » correspond au 9 décembre 2007, au 12 septembre 2007 ou encore au 7 décembre 2009 ; on n’a pas pensé que demander quelle langue est parlée à la maison dans un champ libre conduirait à recevoir des réponses telles que « patois » ou encore « africain » ; on n’a pas tenu compte du fait qu’il existait deux standards écrits pour le norvégien ; on n’a pas pensé que l’ordre dans lequel les langues étaient indiquées par les participants pouvait influencer l’exploitation des résultats ; on a ignoré le fait que des caractères invisibles ou que des façons différentes de noter la même chose pouvaient perturber les métadonnées. Quant aux données, elles sont souvent touchées par des problèmes d’encodages de caractères qui peuvent perturber la suite des traitements.

Une partie de la première journée du séminaire sera consacrée aux bonnes pratiques à mettre en place avant de commencer à collecter un corpus. Elle concernera aussi les façons de repérer des problèmes dans les données et les métadonnées et de les nettoyer lorsque c’est nécessaire.

La question des formats permettant de stocker les données et les métadonnées sera également abordée. On rencontre ainsi régulièrement les formats TXT, CSV, XML, XLSX, TEI et JSON qui sont utilisés tantôt comme formats d’entrée par des logiciels d’exploitation de corpus, tantôt comme formats de diffusion ou de stockage. On montrera à quoi ces formats ressemblent, quelles en sont les caractéristiques, les avantages et les inconvénients.

Enfin, on verra comment utiliser le logiciel open source OpenRefine afin de réaliser certaines opérations de nettoyage, de conversion de formats, de reformatage des données et des métadonnées ou encore d’exploitation des données. 

Categories Events: