CECR-FR Rator (FIDELIA)

Début: mai 2021 Fin : novembre 2024 Financement : MIS (FNRS) et FEI (FTAP)

Évaluation automatique de la compétence écrite des apprenants du FLE

Le projet CECR-Rator est le fruit de la collaboration entre le Cental et France Éducation International (FEI). Son objectif vise à décrire les compétences écrites des apprenants du FLE et, sur la base de cette description, à développer un algorithme permettant de prédire automatiquement le niveau du Cadre européen commun de référence pour les langues (CECR) de ces productions écrites. Pour atteindre cet objectif ambitieux, la collaboration entre le Cental et FEI vise à entrainer des algorithmes d’intelligence artificielle sur l’ensemble des épreuves écrites du TCF.

A l’issue des observations faites par les partenaires (le CENTAL et FEI) et en nous reposant sur une revue critique de la littérature, nous avons construit notre problématique de recherche pour la décliner en deux volets :

Décrire de façon généralisée et empirique (à partir de données d’apprenants) les compétences de production des apprenants du FLE
Mettre au point un système d’IA permettant d’analyser automatiquement ces productions en les reliant à un niveau du CECR

Décrire de façon généralisée et empirique les compétences de production des apprenants du FLE

Ce premier volet de la recherche vise à décrire les compétences écrites des apprenants du FLE à travers leur utilisation de divers phénomènes linguistiques. Plus précisément, nous prévoyons d’établir la distribution de fréquence de ces phénomènes linguistiques sur les six niveaux du CECR (sur le modèle des lexiques du projet CEFRLex). Cela permettra de caractériser le développement de la compétence écrite chez l’apprenant du FLE de manière plus précise.

Mettre au point un système d’IA permettant d’analyser automatiquement ces productions en les associant à un niveau CECR

Ce deuxième volet représentera une avancée scientifique majeure vers l’évaluation automatisée des productions des apprenants du FLE. Il combinera des informations provenant de variables linguistiques et de deep learning afin d’assigner un niveau CECR à n’importe quelle production écrite en français langue étrangère. De plus, nous prévoyons de proposer un diagnostic détaillé du texte analysé en associant un niveau CECR aux phénomènes linguistiques constitutifs de son niveau de compétence (mots, expressions polylexicales, structures syntaxiques, temps et mode des verbes, etc.)

Planification

La direction de ce projet est divisée en différentes étapes étendues sur une durée de 36 mois :

Étape 1 : Préparation du corpus de production des apprenants du FLE et diffusion d’une section à la communauté scientifique.
Étape 2 : Annotation automatique des phénomènes linguistique par IA pour décrire la compétence écrite des apprenants du FLE.
Étape 3 : Étude de méthodes pour la normalisation automatisée des textes produits par les apprenants FLE.
Étape 4 : Étude du corpus de FEI en vue d’une description généralisée et empirique des compétences de production des apprenants du FLE.
Étape 5 : Développement d’un prototype de classifieur des productions d’apprenants selon leur niveau CECR.

Apports et innovations

Le projet CECR-FR Rator représente une innovation dans le domaine du TAL puisqu’il sera le premier à proposer une description des itinéraires d’acquisition de la compétence écrite chez les apprenants du FLE qui soit entièrement basé sur un large corpus de productions. Par ailleurs, de nombreux phénomènes linguistiques seront pris en compte : lexique (mots et expressions), orthographiques, morphosyntaxiques (maîtrise des accords, utilisation correcte des temps et modes, etc.), syntaxiques (structures grammaticales utilisées) et discursifs (mots liens).

Ce sera également le premier modèle capable de proposer un diagnostic aussi riche et détaillé des difficultés textuelles apparaissant dans les différentes productions analysées.

Il s’agit donc d’une belle collaboration entre les secteurs public et privé qui vise à développer une recherche de pointe sur l'évaluation automatique de la compétence écrite des apprenants du FLE. Une recherche de pointe tant en matière de combinaison de connaissances linguistiques et de méthodes d'IA avancées (deep learning) que de modélisation basée sur un large corpus qui représente différentes langues maternelles, âges, origines, niveaux d'acquisition, etc.

Résultats du projet de recherche

Le projet a donné lieu à deux réalisations majeures :

FABRA, premier résultat de recherche significatif, prend la forme d’une boîte à outils pour la lisibilité. Il permet de calculer automatiquement plus de 400 variables linguistiques pertinentes, regroupées en quatre grandes familles : longueur, lexique, syntaxe et discours. Nos principales contributions avec FABRA portent sur l’extraction automatique de variables, accompagnée d’une riche description statistique composée de 18 agrégateurs. Conçu selon une architecture orientée service, FABRA évite l’installation en local et facilite son intégration dans d’autres projets, tels que CECR-Rator. Il offre ainsi un fort potentiel pour de nouvelles recherches sur l’évaluation de la lisibilité en français.
FIDELIA, une solution opérationnelle d’aide à la correction des productions écrites du TCF. Déployée depuis mai 2024 par France Éducation international, elle associe correction humaine et intelligence artificielle afin de garantir une évaluation plus robuste, tout en optimisant la mobilisation des ressources humaines. Cliquez ici pour une vidéo de présentation de Fidelia.

Équipe

Assistant(e) de recherche : Alice Pintard.
Chercheurs postdoctoraux : Dr. David Alfter et Dr. Rodrigo Souza Wilkens.
Promoteur : Thomas François.
Autres contributeurs : Xiaoou Wang et Delia Budulan.

Partenaires

France Education International

Financement

Mandat d’impulsion scientifique (MIS) du FNRS
Accord de collaboration avec FEI (financement FTAP)

Publications (liées au projet)

Yamaguchi, N., Alfter, D., Sugiyama, K. et François, T. (à paraître). Towards a Verb Profile: distribution of verbal tenses in FFL textbooks and in learner productions. Proceedings of NLP4CALL 2022.

Wilkens, R., Seibert, D., Wang, X. et François, T. (2022). MWE for Essay Scoring English as a Foreign Language. In Proceedings of the READI 2022 workshop.

Wilkens, R., Alfter, D., Wang, X., Pintard, A., Tack, A., Yancey, K. et François, T. FABRA: French Aggregator-Based Readability Assessment toolkit. In Proceedings of LREC 2022.

Bibal, A., Cardon, R., Alfter, D., Wilkens, R., Wang, X., François, T. et Watrin, P. (2022). Is Attention Explanation? An Introduction to the Debate In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3889-3900. May 22-27.

Communications

Online, November 9, 2022, Presentation of the automated rating essay (AES - AUTOMATED ESSAY SCORING - STATE OF THE ART) principles and state of arts by Dr David Alfter - ALTE Coordination Session.

Paris, April 21, 2022, Invited workshop at the 57th ALTE Conference
Lecture: "Introducing CEFRLex and its perspectives for automated scoring".

Paris, April 22, 2022, Invited talk at the 57th ALTE Conference
Lecture: "Automated essay scoring: where do you stand and where are we going?" (consulter l’enregistrement ici).

Menu