Enseignants
Langue
d'enseignement
d'enseignement
Anglais
Préalables
Concepts et outils équivalents à ceux enseignés dans les UEs
LSTAT2020 | Logiciels et programmation statistique de base |
LSTAT2120 | Linear models |
LSTAT2100 | Modèles linéaires généralisés et données discrêtes |
Thèmes abordés
Le cours se concentre sur les méthodes numériques et sur les techniques de calcul intensif et itératif qui permettent (i) l'estimation des paramètres et (ii) l’inférence pour les modèles statistiques. Le cours introduit des concepts tels que l'optimisation contrainte et sans contrainte, les algorithmes numériques populaires tels que Newton, les méthodes quasi-Newton et l'algorithme EM (entre autres), la mise en place d'études de simulation pour évaluer les performances de plusieurs concurrents, ainsi que des techniques inférentielles basées sur le principe du Bootstrap.
Contenu
The course outline is as follows:
- Part I:
- Basics of one-dimensional function optimization. Special case: the likelihood function.
- Global vs local optima; numerical convergence and approximation errors.
- Challenges of optimizing multi-dimensional functions. Special cases: linear and generalized linear models and computing the multivariate normal density (link with LSTAT2120, 2100, 2110, 2040).
- Newton’s method, Fisher scoring and IRLS.
- Non-linear functions and numerical differentiation.
- Case study: ?optim(), ?nlm(), ?deriv() and friends.
- The EM algorithm. Special cases: missing data, normal mixture models and linear mixed models (link with LSTAT2210).
- Part II:
- Setting up controlled simulation studies: competitor selection, performance metrics and reproducibility.
- Sampling from distributions and DGPs.
- Case study I: Sample mean (mean, median, trimmed mean from normal and skewed distributions); German tank problem (estimators from slide LSTAT 2040) - mean, bias, MSE, RE.
- Case study II: t-test (size, power, coverage and length for CIs) and Binomial test (Tables from slides LSTAT 2040).
- Case study III: GLM variable selection (TPR, FPR, FDR).
- Parallel computing in R: doParallel, foreach, mclapply and friends to illustrate Case study I-III.
- Part III:
- Bootstrap and resampling methods.
- Bias and variance approximation based on resampling.
- Bootstrap confidence intervals and hypothesis testing.
- Other techniques: Permutation tests and Jacknife
Méthodes d'enseignement
The class consists of lectures (30h) and exercise sessions (15h).
Attendance at lectures and practical exercise sessions is highly encourgared, almost MANDATORY!
Attendance at lectures and practical exercise sessions is highly encourgared, almost MANDATORY!
Modes d'évaluation
des acquis des étudiants
des acquis des étudiants
Session de janvier :
Attention : Pour valider le cours, l'étudiant a besoin d'une note finale de 10 ou plus.
Session d’août :
Attention : Pour valider le cours, l'étudiant a besoin d'une note finale de 10 ou plus.
Attention : Toute utilisation de logiciels d'intelligence artificielle pour produire des parties de texte, de code, de figures ou d'équations qui seront incluses dans le projet final ou les devoirs est strictement interdite. Tous les projets et devoirs seront analysés avec des logiciels spécialisés.
- Pendant le quadrimestre l'étudiant doit rendre 3 devoirs obligatoires (courts, à 2 pages maximum par devoir), comptant pour 1.5 points de la note finale (chaque devoir = 0.5 points). Les devoirs sont à résoudre individuellement ou en groupe de 2. Une note sera attribuée par groupe. Les devoirs qui arrivent après la date limite ne sont pas pris en compte.
- Un projet (rédigé en français/anglais en min 6 et max 12 pages dans le template sur Moodle, annexes non-incluses) qui illustrera les méthodes du cours pour 5 points. Ce projet (écrit) sera remis avant la session d'examen et discuté avec le professeur lors de la session d'examen. L'évaluation du projet se fait sur base du rapport écrit et sur base des réponses dans une discussion orale (sans diapositives) sur les résultats et méthodologie utilisée pour le rapport, pendant la session d'examens. Le projet est à résoudre individuellement ou en groupe de 2. Une note sera attribuée par groupe. Les projets qui arrivent après la date limite ne sont pas prises en compte.
- Un examen oral (~45min), auquel le professeur évaluera la maîtrise de la matière vue au cours (13.5 points), la qualité du projet et des devoirs.
Attention : Pour valider le cours, l'étudiant a besoin d'une note finale de 10 ou plus.
Session d’août :
- Un projet (rédigé en français/anglais en min 6 et max 12 pages dans le template sur Moodle, annexes non-incluses) qui illustrera les méthodes du cours pour 5 points. Ce projet (écrit) sera remis avant la session d'examen et discuté avec le professeur lors de la session d'examen. L'évaluation du projet se fait sur base du rapport écrit et sur base des réponses dans une discussion orale (sans diapositives) sur les résultats et méthodologie utilisée pour le rapport, pendant la session d'examens. Le projet est à résoudre individuellement ou en groupe de 2. Une note sera attribuée par groupe. Les projets qui arrivent après la date limite ne sont pas prises en compte.
- Un examen oral (~45min), auquel le professeur évaluera la maîtrise de la matière vue au cours (15 points) et la qualité du projet.
Attention : Pour valider le cours, l'étudiant a besoin d'une note finale de 10 ou plus.
Attention : Toute utilisation de logiciels d'intelligence artificielle pour produire des parties de texte, de code, de figures ou d'équations qui seront incluses dans le projet final ou les devoirs est strictement interdite. Tous les projets et devoirs seront analysés avec des logiciels spécialisés.
Autres infos
Software: R/Python
Ressources
en ligne
en ligne
Slides and notes will be distributed during the semester.
Site Moodle of the class :LSTAT2185 - Numerical Methods for Statistics: Optimization, Simulations and the Bootstrap
https://moodle.uclouvain.be/course/view.php?id=5785
Site Moodle of the class :LSTAT2185 - Numerical Methods for Statistics: Optimization, Simulations and the Bootstrap
https://moodle.uclouvain.be/course/view.php?id=5785
Bibliographie
Givens, G.H. and Hoeting. J.A. (2013). Computational Statistics (2nd ed). Wiley.
Rizzo, M.L. (2007). Statistical Computing with R (2nd ed). Chapman & Hall /CRC.
Gentle, J.E. (2009). Computational Statistics. Springer.
Lange, K. (2010). Numerical Analysis for Statisticians (2nd ed). Springer.
Peng, R.D. (2020+). Advanced Statistical Computing. Available at https://bookdown.org/rdpeng/advstatcomp/
Chernick, M.R. (2008). Bootstrap methods : a guide for practitioners and researchers, Wiley Series in Probability and Statistics.
Davison, A.C. et Hinkley, D.V. (1997). Bootstrap Methods and their Applications, Cambridge University Press.
Efron, B. et Tibshirani, R.J. (1993). An Introduction to the Bootstrap, Chapman and Hall.
Hall, P. (1992). The Bootstrap and Edgeworth Expansion, Springer.
Mammen, E. (1992). When does bootstrap work ? Springer.
Rizzo, M.L. (2007). Statistical Computing with R (2nd ed). Chapman & Hall /CRC.
Gentle, J.E. (2009). Computational Statistics. Springer.
Lange, K. (2010). Numerical Analysis for Statisticians (2nd ed). Springer.
Peng, R.D. (2020+). Advanced Statistical Computing. Available at https://bookdown.org/rdpeng/advstatcomp/
Chernick, M.R. (2008). Bootstrap methods : a guide for practitioners and researchers, Wiley Series in Probability and Statistics.
Davison, A.C. et Hinkley, D.V. (1997). Bootstrap Methods and their Applications, Cambridge University Press.
Efron, B. et Tibshirani, R.J. (1993). An Introduction to the Bootstrap, Chapman and Hall.
Hall, P. (1992). The Bootstrap and Edgeworth Expansion, Springer.
Mammen, E. (1992). When does bootstrap work ? Springer.
Faculté ou entité
en charge
en charge
Programmes / formations proposant cette unité d'enseignement (UE)
Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
d'apprentissage
Master [120] en science des données, orientation statistique
Master [120] en statistique, orientation biostatistiques
Master [120] en statistique, orientation générale
Certificat d'université : Statistique et science des données (15/30 crédits)