Stochastic Optimal Control and Reinforcement Learning

5.00 crédits

30.0 h + 22.5 h

> Horaire

Enseignants

Berger Guillaume; Bianchin Gianluca; Jungers Raphaël;

Langue
d'enseignement

Anglais

Préalables

Ce cours suppose la familiarité avec des notions de systèmes dynamiques (niveau de LEPL1106 : Signaux et systèmes, et LINMA1510 : Automatique linéaire) et d’analyse et d’algèbre (niveau de LEPL1101 : Algèbre, et LEPL1102 : Analyse I). LINMA2470 : Modélisation stochastique est vivement recommandé.

Thèmes abordés

Fondements des probabilités, contrôle optimal
Systèmes finis et processus de décision de Markov
Modèles d’état : LTI, hybrides, et non-linéaires
Contrôle optimal face à l’incertitude sur le modèle
Apprentissage par renforcement

Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

Contribution du cours aux objectifs de programme :

AA1.1, AA1.2, AA1.3, AA2.2
AA5.5
AA6.3

À l’issue du cours, l’étudiant sera capable de :

comprendre le concept d’optimisation d’un processus ou système stochastique;
reformuler des problèmes concrets comme des problèmes mathématiques de décision/conception pour des systèmes stochastiques;
utiliser les outils fondamentaux du contrôle optimal et de l’apprentissage par renforcement pour résoudre des problèmes de décision/conception pour des systèmes stochastiques;
appliquer des outils algorithmiques pour la résolution exacte ou approchée de problèmes de contrôle stochastique optimal, et comprendre leurs points forts et limites et leurs domaines d’applicabilité;
appliquer le concept d’exploitation vs exploration et de minimisation du regret;
procurer une solution exacte ou approchée à des problèmes de contrôle stochastique optimal, avec des applications dans divers domaines, tels que les mathématiques financières, la robotique, …

Acquis d'apprentissage transversaux :

Gérer des problèmes techniques imprévus qui apparaissent lors de l'optimisation d'un système réel.
Formuler des hypothèses raisonnables pour un problème donné, et les évaluer a posteriori.
Participer à un cours technique en anglais.

Contenu

Partie 1 : Fondements des probabilités, des systèmes et du contrôle optimal
Partie 2 : Algorithmes exacts pour la prise de décision optimale et le contrôle optimal
Partie 3 : Algorithmes approximatifs
Partie 4 : Prise de décision optimale et contrôle optimal basés sur les données, et applications

Méthodes d'enseignement

L'enseignement sera basé sur des cours en présentiel, entrecoupés de séances d'exercices pratiques et des devoirs supervisés. En outre, le cours peut inclure un projet, ou une présentation, à réaliser en groupe.

Modes d'évaluation
des acquis des étudiants

Si examen réussi: Examen (60% de la note finale) Projets pendant le quadrimestre (40 % de la note finale)
Si l'examen n'est pas réussi (moins de 10/20), seule cette note comptera pour la note globale du cours
En septembre, seul l'examen de seconde session compte pour la note finale.
D'autres activités, telles que des quizz et des devoirs, peuvent être prises en compte dans la note du cours.
Des examens oraux peuvent remplacer en partie ou en totalité d’autres parties de l'évaluation.

L'utilisation de l'IA, et la diffusion ou l'échange de (parties de) solutions sont évidemment interdites pour toute activité certificative.

Ressources
en ligne

https://moodle.uclouvain.be/enrol/index.php?id=9769

Support de cours

Meyn, Control Systems and Reinforcement Learning (Cambridge University Press, 2022)

Faculté ou entité
en charge

> MAP

Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme

Sigle

Crédits

Prérequis

Acquis
d'apprentissage

Master [120] en sciences actuarielles

ACTU2M

Master [120] en statistique, orientation générale

STAT2M

Master [120] : ingénieur civil en mathématiques appliquées

MAP2M