Statistical learning. Estimation, selection and inference

lstat2450  2020-2021  Louvain-la-Neuve

Statistical learning. Estimation, selection and inference
En raison de la crise du COVID-19, les informations ci-dessous sont susceptibles d’être modifiées, notamment celles qui concernent le mode d’enseignement (en présentiel, en distanciel ou sous un format comodal ou hybride).
5 crédits
30.0 h + 7.5 h
Q1
Enseignants
Pircalabelu Eugen;
Langue
d'enseignement
Anglais
Préalables
LSTAT2011 Éléments de mathématiques pour la statistique
LSTAT2013 - Concepts de base en statistique inférentielle
LSTAT2120 Linear models
LSTAT2020 Logiciels et programmation statistique de base
Thèmes abordés
The course focuses on high-dimensional settings and on techniques to that allow for parameter estimation, model selection and valid inferential procedures for high-dimensional models in statistics.
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

1 Eu égard au référentiel AA du programme de master en statistique, orientation générale, cette activité contribue au développement et à l'acquisition des AA suivants, de manière prioritaire : 1.4, 1.5, 2.4, 4.3, 6.1, 6.2
 
Contenu
Le cours est centré sur la présentation des concepts clés de l'apprentissage statistique et des modèles à haute dimension tels que:
  • Apprentissage statistique
  • Défis concernant les modèles à haute dimension et différences par rapport aux modèles à faible dimension
  • Techniques classiques de sélection de variables pour les modèles de régression linéaire: R2, adj.R2, Cp
  • Sélection basée sur des critères d'information: divergence KL, dérivation AIC / TIC / BIC
  • Sélection basée sur la validation croisée: Leave-one-out et K-fold
  • Sous-ajustement et surajustement ou le compromis biais-variance
  • Ridge: propriétés théoriques, compromis biais / variance, GCV
  • Lasso: chemins de régularisation, LARS, algorithme de descente de coordonnées, limites d'erreur de prédiction, degrés de liberté pour le lasso, récupération du support, sélection de stabilité, knock-offs; inférence par débiasing, inférence post-sélection, inférence bayésienne
  • Extensions de Lasso: élastique net, lasso de groupe, lasso adaptatif, lasso fusionné
  • Autres techniques: modèles graphiques, PCA sparse, analyse discriminante sparse
Méthodes d'enseignement

En raison de la crise du COVID-19, les informations de cette rubrique sont particulièrement susceptibles d’être modifiées.

Le cours comprend des exposés magistraux (30h) et des séances d’exercices (7.5h)
Langue d'enseignement: Anglais.
Modes d'évaluation
des acquis des étudiants

En raison de la crise du COVID-19, les informations de cette rubrique sont particulièrement susceptibles d’être modifiées.

Un examen oral, auquel le professeur évaluera : 
  • la maîtrise de la matière vue au cours  (50% des points); 
  • la qualité d'un projet (rédigé en francais/anglais en min 5 et max 8 pages dans le template sur Moodle, annexes non-incluses), qui illustrera les méthodes du statistical learning dans un cas concret  (50% des points). Ce projet (écrit) sera remis avant la session d'examen et discuté avec le professeur lors de la session d'examen. L'évaluation du projet se fait sur base du rapport écrit et sur base des reponses dans une présentation orale sur les resultats et méthodologie utilisée pour le rapport, pendant la session d'examens. 
L'échec de l'une des deux parties entraîne l'échec automatique de l'examen!
Pour être autorisé à passer l'examen, l'étudiant doit rendre 3 devoirs obligatoires (courts, 1 à 2 pages maximum par devoir). Les devoirs ne sont pas cotés car ils ne font pas partie de l'évaluation.
La remise de moins de 3 devoirs entraîne l'échec du cours!
Ressources
en ligne
Site Moodle du cours : LSTAT2450 - Statistical learning. Estimation, selection and inference.
https://moodleucl.uclouvain.be/course/view.php?id=14890
Bibliographie
  • Hastie, T., Tibshirani, R. and Friedman, J. (2009). The Elements of  Statistical Learning: Data Mining, Inference, and Prediction. Springer.
  • James, G., Witten, D., Hastie, T., and Tibshirani, R. (2014). An Introduction to Statistical Learning: With Applications in R. Springer
  • Hastie, T., Tibshirani, R. and Wainwright, M. J. (2015). Statistical Learning with Sparsity: The Lasso and Generalizations. Chapman and Hall/CRC.
  • Wainwright, M. J. (2019). High-Dimensional Statistics: A Non-Asymptotic Viewpoint. Cambridge University Press.
  • Bühlmann, P., van de Geer, S. (2011). Statistics for High-Dimensional Data. Springer.
Support de cours
  • Transparents du cours disponible sur moodle.
Faculté ou entité
en charge
LSBA
Force majeure
Modes d'évaluation
des acquis des étudiants
La crise sanitaire implique des incertitudes quant aux modalités d’évaluation en particulier pour la session de janvier. Deux options sont envisagées selon la sévérité des contraintes liées à la crise sanitaire.
Un plan A en présentiel :
  • Examen oral
Un plan B en distanciel :
  • Examen oral sur Teams


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Master [120] en science des données, orientation statistique

Certificat d'université : Statistique et sciences des données (15/30 crédits)

Master [120] en statistique, orientation générale