Corpus linguistics: From manual to automatic analysis

lling2250  2025-2026  Louvain-la-Neuve

Corpus linguistics: From manual to automatic analysis
La version que vous consultez n'est pas définitive. Cette fiche d’activité peut encore faire l'objet de modifications. La version finale sera disponible le 1er juin.
5.00 crédits
22.5 h + 10.0 h
Q1
Préalables
  • Avoir obtenu un bachelier 
  • De bonnes bases en linguistique générale 
  • Une connaissance solide en anglais académique 
Thèmes abordés
Ce cours se concentre sur la linguistique de corpus, à savoir l’utilisation de corpus pour explorer des questions théoriques dans divers domaines de la linguistique. Il abordera la définition et les spécificités d’un corpus de données textuelles ou orales, ainsi que les différentes méthodes (qualitatives et quantitatives) qui permettent de répondre à une question de recherche linguistique sur base d’un corpus. Le cours introduira donc les étudiant.e.s à différents outils d’analyse de corpus. Le cours sera axé sur la pratique : les étudiants acquerront une expérience pratique avec divers outils informatiques, ainsi qu'avec le logiciel statistique R. L'application pratique des concepts et des techniques sera facilitée par la conception et la mise en œuvre d'un projet de recherche de a à z : question de recherche, constitution d’un corpus en relation avec la question de recherche posée, analyse (qualitative/quantitative), présentation orale et écrite des résultats.  
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

1 Constituer un corpus de données langagières écrites ou orales en vue de l'analyse d'un problème linguistique particulier (lexique, phonétique, syntaxe, sémantique, discours)
 
2 Utiliser différents logiciels pour l'analyse de corpus
 
3 Répondre à une question de recherche en menant une étude quantitative sur corpus
 
4 Répondre à une question de recherche en menant une étude qualitative sur corpus
 
5 Présenter oralement la question de recherche, la méthode et les résultats de cette recherche
 
6 Présenter la question de recherche, la méthode et les résultats de cette recherche par écrit dans un travail académique
 
Cette unité d’enseignement contribue au développement et à la maitrise des compétences et acquis des programmes de l’Ecole de langues et lettres suivants (cf. Tableau des AA ELAL) 
 
Contenu
OBJECTIFS GENERAUX :
(1) être capable de mener, complètement et de manière autonome, une étude linguistique sur corpus;
(2) acquérir une connaissance générale sur les corpus de langue (en français, mais pas uniquement), les outils et les méthodes.
OBJECTIFS SPECIFIQUES :
(1) concevoir un corpus en vue d'une question de recherche spécifique;
(2) recueillir les données (orales ou écrites) + métadonnées;
(3) éditer les données (transcription, nettoyage, formatage, encodage, etc.);
(4) annoter les textes d'un corpus (aux différents niveaux de l'analyse linguistique) à l'aide des logiciels adéquats;
(5) poser les questions de recherches / formuler des hypothèses;
(6) choisir une méthode d'analyse;
(7) exploiter / analyser un corpus selon la méthode choisie (analyse qualitative - analyse quantitative);
(8) exposer les résultats d'une recherche.
Méthodes d'enseignement
30h de cours magistraux + 10h de séances de TP (consacrées à la réalisation d'un travail de recherche personnel basé sur la méthodologie vue lors des cours magistraux).
Modes d'évaluation
des acquis des étudiants
La note finale est la moyenne arithmétique des notes de 4 composantes :
  • Participation active aux cours requise vu que les cours sont hands-on (10%)
  • Remise d’un court travail dans R (manipulation de données et visualisation) à mi-parcours (15%)
  • Présentation orale du travail lors du dernier jour de cours (25%)
  • Travail écrit de 13 pages max. (avec bibliographie, mais sans les annexes) à remettre le premier jour de la session d'examen (50%)
A la session de septembre, l'évaluation continue sera toujours prise en compte. Un·e étudiant·e ayant échoué une des composantes se verra offrir la possibilité de soumettre à nouveau les tâches échouées ou un travail jugé équivalent par les professeurs.
Autres infos
Les intelligences artificielles (IA) génératives doivent être utilisées de manière responsable et conformément aux pratiques de l’intégrité académique et scientifique. L'intégrité scientifique impliquant que l'on cite ses sources, l'usage d'une IA générative doit à tout le moins être signalé : l'étudiant.e est donc tenu d'indiquer (par exemple en note de bas de page) si une IA générative (en précisant laquelle) a été utilisée pour la rédaction du texte. L'étudiant.e reste responsable du contenu de sa production, indépendamment des sources utilisées. L'utilisation des intelligences artificielles pour les tâches où celles-ci sont explicitement interdites sera considérée comme un cas de tricherie.
Bibliographie
  • Avanzi, Mathieu, Béguelin, Marie-José, Diémoz, Federica (éds) (2016) Corpus de français parlé et français parlé des corpus (=Corpus 15).
  • Baude, Olivier (sous la dir. de). (2006). Corpus oraux, guide des bonnes pratiques. Paris : éditions du CNRS.
  • Zufferey, Sandrine (2020). Introduction à la linguistique de corpus. Londres : ISTE éditions
Support de cours
  • L'ensemble des supports sont disponibles sur Moodle.
Faculté ou entité
en charge


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Master [120] en langues et lettres françaises et romanes, orientation français langue étrangère

Master [120] en traduction

Master [120] en linguistique

Master [120] en langues et lettres modernes, orientation germaniques

Master [120] en langues et lettres modernes, orientation générale