Modélisation et exploration des données multivariées

lbira2110  2021-2022  Louvain-la-Neuve

Modélisation et exploration des données multivariées
6 crédits
52.5 h + 22.5 h
Q1
Enseignants
Langue
d'enseignement
Français
Préalables
Eléments de probabilité et de statistique (typiquement les cours BIR 1203 et BIR 1204).
Thèmes abordés
Méthodes quantitatives d'analyse des données dans le domaine de la bioingénierie. Le partim A (biométrie) aborde les méthodes d’analyse des données issues d’expériences : analyse de la variance à un ou plusieurs critères de classification croisés ou hiérarchisés, modèles linéaires généralisés (facteurs catégoriels et continus), modèles pour données catégorielles, analyse en composantes principales. Le partim B (applied econometrics) aborde le cas des données non expérimentales issues d’enquêtes (données en panels, séries temporelles et coupes transversales, concepts d’endogénéité et de stationarité, modèles à effets fixes et aléatoires).
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

1 a. Contribution de l'activité au référentiel AA (AA du programme)
A la fin de cette unité d’enseignement, l’étudiant est capable de :
  • Maîtriser des savoirs-faire procéduraux dans la réalisation d'expériences (M1.3)
  • Connaître et comprendre un socle de savoirs approfondis et d'outils en Sciences de l'ingénieur (M2.1)
  • Maîtriser de manière opérationnelledes outils spécialisés en Sciences de l'ingénieur (M2.3)
  • Maîtriser et mobiliser des outils d'analyse statistiques de données scientifiques dans le cadre d'une problématique scientifique complexe (M3.5)
  • Faire preuve d'une capacité d'abstraction conceptuelle et de formalisation dans l'analyse  et la résolution de problèmes (M4.4)
  • Communiquer des résultats et conclusions et appuyer un message de manière pertinente à l'aide de tableaux, graphiques et schémas scientifiques (M6.5) 

b. Formulation spécifique pour cette activité des AA du programme (maximum 10)
A la fin de cette activité, l'étudiant est capable, face une situation expérimentale donnée et avec le logiciel R :        
  • de choisir et écrire l'équation du modèle statistique adapté à l'expérience réalisée et aux questions posées
  • de comprendre les limites des questions qui peuvent être addressées avec chaque type de données (expérimentales, non-expérimentales...)
  • d'identifier les principales limites d’un modèle linéaire et les solutions qui peuvent y être apportées
  • d'estimer le modèle avec éventuellement différentes méthodes d'estimation
  • de valider la qualité du modèle estimé, déterminer les termes/paramètres significatifs et d'adapter éventuellement le modèle
  • d'interpréter les effets des facteurs sur la réponse via des tests simples ou de contrastes et des graphiques afin de répondre aux questions de l'étude      
  • d'utiliser le modèle estimé pour réaliser des prédictions 
  • dans le cas de données catégorielles, d'écrire les hypothèses à tester, d'appliquer le test et d'interpréter les résultats     
  • d'expliquer dans ses mots les importants concepts/méthodes vus au cours : différents types de modèles linéaires , modèles fixes, aléatoires ou mixtes, hypothèses sous jacentes aux modèles/méthodes , méthodes d'estimation des moindres carrés, maximum de vraisemblance, maximum de vraisemblance restreint, méthodes de construction de tests (test t univarié, test F pour modèles emboités, espérances de carrés moyens, rapports de vraisemblance'),      
  • d'écrire du code SAS pour estimer un modèle donné   
  • d'interpréter précisément les résultats d'une sortie SAS ou JMP en étant capable de dire pour CHAQUE nombre d'un tableau de résultats à quel concept sous'jacent il correspond en sachant expliquer ce concept, dire comment le nombre a été calculé et comment l'interpréter dans le contexte.
 
Contenu
LBIRA2110A - Biométrie
Introduction
Modèles pour une réponse quantitative et un facteur fixe
  • Modèle linéaire à un facteur quantitatif
  • Modèle polynomial ou non linéaire
  • Analyse de la variance à un facteur fixe
 Modèles linéaires pour une réponse quantitative et deux facteurs fixes
  • Analyse de la variance à deux facteurs fixes
  • Régression linéaire multiple
  • Analyse de covariance et modèle linéaire général
Modèles pour données catégorielles
  • Tables de contingences
  • Régression logistique
  • Modèles linéaires généralisés
Méthodes multivariées
  • Analyse en composantes principales
  • Clustering hiérarchique et k-means
Le cours comprend un apprentissage en R qui sera basé (entre-autre) sur la plate-forme DATA-CAMP (https://datacamp.com)
LBIRA2110B – Applied Econometrics
Introduction to the different data types (cross-sections, time series, panel data) and to the small-sample and large-sample justifications of the OLS estimators
Cross-sections : typical exceptions to the Gauss-Markov assumptions, sources of endogeneity, IV estimators
Time series : the problem of non-stationarity, unit root tests, a few typical econometric specification for time series (Koyck, ECM,...)
Panel data : fixed effect model vs random effect model, the unifying Mundlak approach
Méthodes d'enseignement
Cours en auditoire / Teams
Séances de TP
Apprentissage du logiciel R avec Data Camp
Cours en auditoire / Teams
Devoirs à domicile
Modes d'évaluation
des acquis des étudiants
Biométrie (50% des points pour LBIRA2110)
Examen écrit
Test R en cours de quadrimestre
Evaluation continue (préparation de TP, quizz)
Applied Econometrics (50% des points pour LBIRA2110)
Homework in groups
Autres infos
Ce cours peut être donné en anglais
Ressources
en ligne
Toutes les ressources en ligne se trouvent sur Moodle. Elles comprennent:
  • Transparents de théorie et d'exemples liés au cours
  • Enregistrement des cours (podcasts)
  • Enoncés d'exercices
  • Recueil de formules
Faculté ou entité
en charge


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Master [120] : bioingénieur en sciences agronomiques