Anaïs Tack

CENTAL Louvain-La-Neuve

Peux-tu décrire brièvement ton parcours jusqu’à présent ?

J’ai fait un bachelier et un master en langues et littératures français-anglais à la KU Leuven. J’ai ensuite poursuivi avec un second master en traitement automatique du langage (TAL) à l’UCLouvain, durant lequel j’ai eu l’occasion de réaliser un job en tant qu’étudiante au CENTAL.

En octobre 2015, j'ai commencé à y travailler en tant qu’assistante de recherche en collaboration avec l’entreprise Altissia. Ensuite, j’ai obtenu une bourse du FNRS pour réaliser une thèse en co-tutelle avec l’UCLouvain (CENTAL) et la KU Leuven (ITEC, imec research group).
 

Peux-tu présenter plus précisément ton projet de thèse ?

Je finalise le projet intitulé « Predicomplex » qui est financé par le FNRS. Le projet vise à examiner la prédiction automatique de difficultés lexicales pour des lecteurs non natifs. La méthodologie adoptée est très TAL et apprentissage automatique (modèles statistiques et deep learning). Le but est de développer un système capable d’identifier des difficultés de manière automatisée

« une bonne compréhension d'un texte est fortement déterminée par le vocabulaire »

Si tu devais identifier des plus-values pour la recherche scientifique et/ou la société, quelles seraient-elles ?

Il s’agit d’un projet de recherche fondamentale qui comprend plusieurs études. Une première partie importante était une étude systématique de la littérature, couvrant plus de cent publications liées à la thématique. Cette première étude n’a pas encore été faite dans le domaine et a permis de structurer la thématique et d’identifier des lacunes actuelles.

Une deuxième partie était consacrée à la collecte de données. Ce projet visait à lever quelques limitations actuelles, plus particulièrement en ce qui concerne la collecte de données personnalisées. Deux jeux de données ont été étudiés :

  1. les matériaux de lectures gradués par niveaux de difficulté ;
  2. les textes lus par un échantillon de non-natifs.

Une dernière partie était consacrée au développement de modèles prédictifs. Deux modèles ont été développés : un modèle à effets mixtes et un modèle de réseau de neurones. Les résultats de cette dernière partie ont démontré la plus-value de l’approche personnalisée.
 

Quels défis as-tu rencontrés tout au long de ta recherche ?

« il est nécessaire
de personnaliser
la difficulté, car
elle est relative
à un individu en particulier »

Un défi est la collecte de données. Dans une approche par apprentissage automatique, on a besoin de beaucoup de données d’entraînement. Or, il n’est pas évident d’aboutir à un grand jeu de données où les difficultés de lecture sont identifiées de manière personnalisée.

Pour faire face à cette difficulté, on opte souvent pour la découpe d’un ensemble de textes en plus petits extraits répartis parmi un grand nombre de participants. Ensuite, on met toutes ces données ensemble et, dès lors, on n’arrive plus à prédire les difficultés de manière personnalisée. Ce que le projet a montré, c’est qu’il est nécessaire de personnaliser la difficulté, car elle est relative à un individu en particulier.

As-tu tissé un réseau ou initié des collaborations ?

Pendant plusieurs années, j’ai eu la possibilité de co-organiser les séminaires du CENTAL (2016-2019). C’était une première occasion pour moi de tisser un réseau scientifique et de rencontrer des conférenciers que je ne connaissais pas encore personnellement. C’est un plaisir pour moi d’avoir pu contribuer à cette tradition et de voir que la tradition se poursuit, que d’autres jeunes chercheurs ont la même occasion de développer leur propre réseau. 

Pendant la thèse, j’ai également contribué aux projets Alector (séjour de recherche à Aix-Marseille) et CEFRLex

Quel est ton souvenir le plus mémorable au CENTAL  ?

Comme c’est sans doute le cas pour nombre de Centaliens, je dirais notre fameuse fête de Noël et du Nouvel An. Chaque année, c’est un moment convivial entre collègues et d’autres sympathisants pour clôturer une année de travail. J’en garde de très bons souvenirs.