Data Mining

lstat2350  2019-2020  Louvain-la-Neuve

Data Mining
Note du 29 juin 2020
Sans connaitre encore le temps que dureront les mesures de distances sociales liées à la pandémie de Covid-19, et quels que soient les changements qui ont dû être opérés dans l’évaluation de la session de juin 2020 par rapport à ce que prévoit la présente fiche descriptive, de nouvelles modalités d’évaluation des unités d’enseignement peuvent encore être adoptées par l’enseignant ; des précisions sur ces modalités ont été -ou seront-communiquées par les enseignant·es aux étudiant·es dans les plus brefs délais.
5 crédits
15.0 h + 15.0 h
Q2
Enseignants
Verdonck Tim;
Langue
d'enseignement
Anglais
Préalables

Le(s) prérequis de cette Unité d’enseignement (UE) sont précisés à la fin de cette fiche, en regard des programmes/formations qui proposent cette UE.
Thèmes abordés
- Domaines d'application du data mining. - Etapes types de la méthodologie du data mining. - Echantillonnage et partitionnement de la base de données. - Prétraitement et validation des données. - Exploration, réduction et transformation des variables. - Outils de modélisation et de classification du data mining (présentation générale). - Arbres de décision. - Réseaux de neurones. - Outils de validation du modèle. - Etudes de cas.
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

1 A. Eu égard au référentiel AA du programme de master en statistique, orientation générale, cette activité contribue au développement et à l'acquisition des AA suivants :

de manière prioritaire : 1.2, 1.3, 2.1, 2.2, 2.3, 2.5, 3.1, 3.3, 5.5, 6.3, 6.4
de manière secondaire : 2.4, 3.4, 5.1, 5.2

Eu égard au référentiel AA du programme de master en statistique, orientation biostatistique, cette activité contribue au développement et à l'acquisition des AA suivants :

de manière prioritaire : 1.2, 1.3, 2.1, 2.2, 2.3, 2.5, 3.1, 3.3, 6.1, 6.2.
de manière secondaire : 2.4.
B. Au terme du cours l'étudiant aura acquis des connaissances de base sur la méthodologie et les outils du data mining pour le traitement de grandes bases de données d'entreprises. Il aura conscience des spécificités et de l'apport du data mining par rapport à la statistique classique et sera capable de traiter des études de cas avec un logiciel dédicacé.
 

La contribution de cette UE au développement et à la maîtrise des compétences et acquis du (des) programme(s) est accessible à la fin de cette fiche, dans la partie « Programmes/formations proposant cette unité d’enseignement (UE) ».
Contenu
Introduction au data mining
  • Data et systèmes du data mining
  • Domaines d'application du data mining
  • Processus et méthodologie du data mining
  • Data mining dans le domaine du Customer Relationship Management (CRM)
  • Statistique classique et data mining
Préparation des données pour data mining
  • Principales étapes dans la préparation des données
  • Spécification des données pour le data mining
  • Extraction et agrégation des données
  • Audit et exploration des données
  • Pré-traitement des données
Modélisation prédictive
  • Arbres de décision
  • Réseaux de neurones
  • Validation et choix de modèles
Modélisation descriptive
  • Clustering
  • K-means
  • Kohonen Self-Organising Map
Etudes de cas
Bibliographie
1. Berry M. and G. Linoff (2000), "Matering Data Mining, The Art and Science of Customer Relationship Management", John Wiley.
2. Bishop, C.M. (1995), Neural Networks for Pattern Recognition, Oxford.
3. Breiman, L., Friedman, J.H., Olshen, R.A., and Stone, C.J. (1984), "Classification and Regression Trees", Wadsworth, Inc., Belmont, California.
4. Han J. and M. Kamber (2000), "Data Mining: Concepts and Techniques", Morgan Kaufmann,.
5. Hastie Tr., R. Tibshirani and J. Friedman (2001), "The Elements of Statistical Learning -Data Mining, Inference and Prdiction", Springer.
6. Haykin S., "Neural Networks: A comprehensive Foundation", Prentice Hall, 1999
7. Kohonen T. (1995), "Self-Organizing Maps", Springer Series in Information Sciences, Oxford University Press.
8. Piatetsky-Shapiro G. and W. J. Frawley (1991), "Knowledge Discovery in Databases", AAAI/MIT Press.
9. Piatetsky-Shapiro G., U. Fayyad, and P. Smith (1996). "From data mining to knowledge discovery: An overview", In U.M. Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, 1-35. AAAI/MIT Press,.
10. Pyle D. (2000), "Data Prepation for Data Mining", Morgan Kaufman.
11. Richard O. Dula, Pete E. Hart and David G. Stork (2000), "Pattern Classification", John Wiley, Second edition.
12. Van Hulle M. (2000), "Faithful Representations and Topographic Maps: From Distortion- to Information-Based Self-Organization", John Willey
Faculté ou entité
en charge
LSBA


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Master de spécialisation en méthodes quantitatives en sciences sociales

Master [120] : bioingénieur en chimie et bioindustries

Master [120] : bioingénieur en gestion des forêts et des espaces naturels

Master [120] : bioingénieur en sciences agronomiques

Master [120] en science des données, orientation statistique

Master [120] : ingénieur civil en mathématiques appliquées

Master [120] en linguistique

Certificat d'université : Statistique et sciences des données (15/30 crédits)

Master [120] en sciences actuarielles

Master [120] en statistique, orientation générale

Master [120] : bioingénieur en sciences et technologies de l'environnement