Multivariate statistics for linguistics

lling2240  2025-2026  Louvain-la-Neuve

Multivariate statistics for linguistics
La version que vous consultez n'est pas définitive. Cette fiche d’activité peut encore faire l'objet de modifications. La version finale sera disponible le 1er juin.
5.00 crédits
22.5 h + 10.0 h
Q2
Thèmes abordés
L’accès à ce cours est réservé à des étudiants ayant déjà suivi avec succès un cours d’introduction aux statistiques, par exemple LFIAL2260. 
Le cours abordera les thèmes suivants : 
  • Concept et structure d'un modèle statistique (linéaire ou non linéaire) et exemples de questions de recherche linguistiques typiques 
  • Modèles de régression : introduction à différents modèles de régression (ex. régression linéaire, logistique, etc.), algorithmes de sélection des variables, notion de multicolinéarité, entraînement des modèles, interprétation des paramètres, qualité des prédictions  
  • Analyse de la variance : présentation de différentes techniques d’analyse de la variance (données paramétriques et non paramétriques;  indépendante et à mesures répétées; à un ou plusieurs critères de classification, etc.),  logique sous-jacente au test F, comparaison multiple de moyennes (tests post-hoc) 
  • Modèles linéaires mixtes : notion de modèle linéaire généralisé, effets aléatoires, modèles hiérarchiques 
  • Méthodes exploratoires : méthodes d’exploration des données typiques de la stylométrie, par exemple analyse en composantes principales, analyse factorielle, etc. 
  • Méthodes de classification : introduction aux modèles de classification, par exemple les arbres de décision  
  • Validation des modèles : mesures de la qualité de l'ajustement, analyse des résidus, test d'homogénéité de variance et de sphéricité, détection d'outliers ou de points influents, transformation de variable 
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

1 Traduire une problématique linguistique de recherche en une série de questions statistiques, choisir les méthodes adaptées, les appliquer et présenter l'ensemble des résultats dans un rapport. 
 
2 Comprendre et expliquer les concepts statistiques sous-jacents aux différentes méthodes utilisées dans le cours. 
 
3 Appliquer les différentes méthodes statistiques couvertes dans le cours à des données textuelles à l’aide du logiciel R  
 
Cette unité d’enseignement contribue au développement et à la maitrise des compétences et acquis des programmes de l’Ecole de langues et lettres suivants (cf. Tableau des AA ELAL) : 1.4 ; 2.3 ; 2.6 ; 3.1 ; 3.2 ; 3.3 ; 3.5 ; 4.5 ; 5.1 ; 5.2 ; 5.3   
 
Contenu
Après une introduction sur le rôle central des méthodes statistiques pour la linguistique, le cours abordera divers thèmes : 
  • Notions de modélisation statistique  
  • ANOVA I - Analyse de la variance à un critère de classification : Modèle classique, comparaisons post-hoc et ANOVA de Kruskal-Wallis 
  • ANOVA II - Analyse de la variance à deux critères de classification 
  • ANOVA pour mesures répétées : Modèle classique et ANOVA de Friedman 
  • Modèles de régression linéaire simple et multiple et analyse des résidus 
  • Modèle de régression logistique simple et mutiple 
  • GLM - Modèle linéaire général et modèles mixtes Analyses statistiques multivariées exploratoires : Analyse en composantes principales et analyse factorielle 
  • Méthodes de classification : arbres de décision 
Méthodes d'enseignement
cours oraux + lectures + exercices
Modes d'évaluation
des acquis des étudiants
L'évaluation se déroulera selon trois axes :
  • Évaluation continue (tests, participation au cours, travaux)  (30 % de la note)
  • Examen écrit (30 % de la note)
  • Travail personnel écrit (40 % de la note): il s'agira soit d'un travail personnel sur un problème linguistique abordé via les outils statistiques, soit de la participation à un projet collectif visant à la production d'un article scientifique.
Pour la session de septembre, l'évaluation est adaptée comme suit :
  • Examen écrit (50% de la note)
  • Travail personnel (50% de la note)
NB : Les intelligences artificielles (IA) génératives doivent être utilisées de manière responsable et conformément aux pratiques de l’intégrité académique et scientifique. L'intégrité scientifique impliquant que l'on cite ses sources, l'usage d'une IA doit toujours être signalée. L'utilisation des intelligences artificielles pour les tâches où celles-ci sont explicitement interdites sera considérée comme un cas de tricherie.
Autres infos
Support de cours (sur Moodle) :
  • slides ;
  • articles ou chapitres de livres ;
  • exercices complémentaires.
Bibliographie
Field, A. (2013). Discovering statistics using IBM SPSS statistics. Sage.
Howell, D. (2008). Méthodes statistiques en sciences humaines, Paris, De Boeck Université.
Muller, Charles (1992). Initiation aux méthodes de la statistique linguistique, Champion.
Rasinger, S.M. (2008). Quantitative Research in Linguistics. New York, Continuum International Publishing Group
Faculté ou entité
en charge


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Master [120] en linguistique

Master [120] en langues et lettres modernes, orientation germaniques

Master [120] en langues et lettres modernes, orientation générale