Stochastic Optimal Control and Reinforcement Learning

linma2222  2025-2026  Louvain-la-Neuve

Stochastic Optimal Control and Reinforcement Learning
5.00 crédits
30.0 h + 22.5 h
Q1
Langue
d'enseignement
Anglais
Préalables
Ce cours suppose la familiarité avec des notions de systèmes dynamiques (niveau de LEPL1106 : Signaux et systèmes, et LINMA1510 : Automatique linéaire) et d’analyse et d’algèbre (niveau de LEPL1101 : Algèbre, et LEPL1102 : Analyse I). LINMA2470 : Modélisation stochastique est vivement recommandé.
Thèmes abordés
  • Fondements des probabilités, contrôle optimal
  • Systèmes finis et processus de décision de Markov
  • Modèles d’état : LTI, hybrides, et non-linéaires
  • Contrôle optimal face à l’incertitude sur le modèle
  • Apprentissage par renforcement
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

Contribution du cours aux objectifs de programme :
  • AA1.1, AA1.2, AA1.3, AA2.2
  • AA5.5
  • AA6.3
À l’issue du cours, l’étudiant sera capable de :
  • comprendre le concept d’optimisation d’un processus ou système stochastique;
  • reformuler des problèmes concrets comme des problèmes mathématiques de décision/conception pour des systèmes stochastiques;
  • utiliser les outils fondamentaux du contrôle optimal et de l’apprentissage par renforcement pour résoudre des problèmes de décision/conception pour des systèmes stochastiques;
  • appliquer des outils algorithmiques pour la résolution exacte ou approchée de problèmes de contrôle stochastique optimal, et comprendre leurs points forts et limites et leurs domaines d’applicabilité;
  • appliquer le concept d’exploitation vs exploration et de minimisation du regret;
  • procurer une solution exacte ou approchée à des problèmes de contrôle stochastique optimal, avec des applications dans divers domaines, tels que les mathématiques financières, la robotique, …
Acquis d'apprentissage transversaux :
  • Gérer des problèmes techniques imprévus qui apparaissent lors de l'optimisation d'un système réel.
  • Formuler des hypothèses raisonnables pour un problème donné, et les évaluer a posteriori.
  • Participer à un cours technique en anglais.
 
Contenu
Partie 1 : Fondements des probabilités, des systèmes et du contrôle optimal
Partie 2 : Algorithmes exacts pour la prise de décision optimale et le contrôle optimal
Partie 3 : Algorithmes approximatifs
Partie 4 : Prise de décision optimale et contrôle optimal basés sur les données, et applications
Méthodes d'enseignement
L'enseignement sera basé sur des cours en présentiel, entrecoupés de séances d'exercices pratiques et des devoirs supervisés. En outre, le cours peut inclure un projet, ou une présentation, à réaliser en groupe.
Modes d'évaluation
des acquis des étudiants
  • Si examen réussi: Examen (60% de la note finale) Projets pendant le quadrimestre (40 % de la note finale)
  • Si l'examen n'est pas réussi (moins de 10/20), seule cette note comptera pour la note globale du cours
  • En septembre, seul l'examen de seconde session compte pour la note finale.
  • D'autres activités, telles que des quizz et des devoirs, peuvent être prises en compte dans la note du cours.
  • Des examens oraux peuvent remplacer en partie ou en totalité d’autres parties de l'évaluation.
L'utilisation de l'IA, et la diffusion ou l'échange de (parties de) solutions sont évidemment interdites pour toute activité certificative.
Support de cours
  • Meyn, Control Systems and Reinforcement Learning (Cambridge University Press, 2022)
Faculté ou entité
en charge


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Master [120] en sciences actuarielles

Master [120] en statistique, orientation générale

Master [120] : ingénieur civil en mathématiques appliquées