Séminaire doctoral "Récolte, nettoyage et enrichissement de corpus" - DEUXIÈME DEMI-JOURNÉE (4/4) : Enrichissement des données à l’aide des outils du TAL

CENTAL Louvain-La-Neuve

mars 25, 2022

14h-17h

Ce séminaire doctoral interuniversitaire entend se consacrer aux problèmes réels qui sont rencontrés par les personnes qui décident de récolter un corpus, de le manipuler et de le diffuser. Son objectif est d’apporter des réponses concrètes à ces problèmes ; il n’a par contre pas pour but de montrer tous les outils de traitement qui existent en fonction des différents usages qui peuvent être faits de tel ou tel corpus. Il se concentrera sur les tâches qui sont les plus communes aux disciplines de l’ED3bis, et s’intéressera particulièrement aux corpus sous une forme écrite ou transcrite. Cela ne veut pas dire pour autant que le séminaire n’est pas destiné aussi aux personnes travaillant sur de l’oral ou sur la vidéo, par exemple. Il montrera une chaine typique de traitements qui sont appliqués à un corpus, depuis sa constitution jusqu’à son exploitation.


Description de la demi-journée

Afin d’exploiter au mieux chaque corpus, il est régulièrement nécessaire d’aller au-delà des mots tels qu’ils apparaissent dans les transcriptions ou les textes récoltés. On ajoute ainsi aux mots du texte leurs lemmes (au sens de leur forme canonique telle qu’elle apparait dans un dictionnaire — partiront → partir), leur analyse morphosyntaxique (partiront → indicatif futur simple 3e personne du pluriel) ou encore leur analyse syntaxique (Elles → sujet du verbe « partiront » dans « Elles partiront ») ; on regroupe ces mots en constituants nominaux ou verbaux ; on identifie les entités nommées dans les textes, c’est-à-dire les dates, les noms de personnes, de lieux, d’institutions ou d’évènements (le 3 avril 2021le Premier ministreAlexander De Croola Commission européenneles attentats du 11 septembre). Ces tâches peuvent être réalisées à l’aide de différents outils qui relèvent du traitement automatique des langues (TAL).

Selon les questions de recherche, il faut en outre souvent envisager un enrichissement manuel des données, qui peut s’appuyer sur un enrichissement automatique (étiquetage des erreurs commises par des apprenants ; identification et catégorisation de certaines structures de phrases ou concepts).

Lors de ces deux demi-journées, l’accent sera surtout mis sur les outils de TAL, sur l’utilisation de certains d’entre eux, mais aussi sur l’évaluation de la qualité des résultats qu’ils produisent (notions de précision, rappel et F-mesure). On emploiera également des logiciels permettant de définir différents schémas d’annotation afin d’étiqueter manuellement les corpus.

Categories Events: