Séminaires du CENTAL

Les séminaires organisés par le CENTAL sont entièrement gratuits et accessibles à tous. Ils ont pour objectif de rassembler enseignants, étudiants et chercheurs, qu’ils soient issus du milieu académique ou industriel, autour de thématiques liées au traitement automatique des langues.

Pour rester informé(e) des séminaires à venir et des dernières actualités du CENTAL, nous vous invitons à rejoindre notre liste de diffusion en vous y inscrivant dès maintenant.

Programme de l'année académique 2024-2025

Organisation : Elodie Vanzeveren et Lingyun Gao.

Prochains séminaires

👤 Laurane Castiaux, NLP Engineer chez DAMEDIC GmbH

📅 Vendredi 28 février 2025 de 14:00 à 15:00

📍 Auditoire SOCRATE 21 (place du Cardinal Mercier, 10-12 à 1348 Louvain-la-Neuve, Belgique)

⚠️ Ce séminaire aura lieu uniquement en présentiel !

Abstrat :

Large Language Models (LLMs) have opened new perspectives in many domains, including the medical field. However, training these models on sensitive data such as Electronic Health Records (EHRs) presents unique challenges, particularly in safeguarding patient privacy and complying with strict data protection regulations.

In this talk, I will share insights into fine-tuning LLMs in a production environment while balancing performance optimization with ethical and regulatory demands. Topics will cover the use of synthetic data and the development of automated training pipelines.

I will conclude by exploring opportunities for future enhancement, such as the incorporation of user feedback and iterative dataset refinement techniques. These advancements will aim to enable smaller, fine-tuned models to outperform their larger counterparts.

👤 Julien Agaësse, Professeur en Didactique des langues, Université de Tokyo

📅 Mardi 4 mars 2025 de 14:00 à 15:00

📍 Maison des Langues, local MDL A118 (Voie du Roman Pays, 3a à 1348 Louvain-la-Neuve, Belgique)

Abstrat :

La présentation présentera l'influence des émotions et du jeu de société sur l'apprentissage du français des étudiants japonais de l'université de Tokyo. S'appuyant sur la perspective énactive et les basic affective systems de Panksepp et Biven, l'étude explore comment le jeu de société peut créer un climat de classe positif, favoriser la prise de risque et les interactions authentiques. Les résultats suggèrent que le jeu de société peut renforcer la confiance en soi des apprenants, augmenter leur participation et faciliter l'acquisition de compétences linguistiques et socioculturelles. Cette recherche souhaite contribuer à une meilleure compréhension des facteurs émotionnels et environnementaux dans l'enseignement des langues.

Séminaires précédents

Julien Zakhia Doueihi, doctorant en linguistique, Université Catholique de Louvain (Cental)

Lien vers la visioconférence • Slides

Abstrat :

Dans le domaine de l'apprentissage des langues étrangères, l'utilisation de nouvelles technologies suffisamment adaptées au public ciblé mais également au contenu enseigné apparaît comme un défi majeur pour de nombreux enseignants. La question de la disponibilité de tels outils est pourtant d'autant plus cruciale que dans des modèles d'instruction plus traditionnels, on constate de nombreuses difficultés dans l'acquisition de contenus grammaticaux complexes tels que les verbes pronominaux du français, en particulier lorsque les apprenants n'ont pas de correspondance directe dans leur langue première.

Dans cette présentation, je vous parlerai des résultats d'expériences en apprentissage des langues assisté par ordinateur (ALAO) conduites dans plusieurs universités japonaises, et dans laquelle nous avons testé les effets de jeux pour téléphone nouvellement conçus pour enseigner les verbes pronominaux français selon deux approches différentes: une approche par tâches (TBLT) ainsi qu'une approche par concepts (CBI).

Bruno Cartoni, linguiste chez Google

Abstrat :

En prenant l'exemple de Google où je travaille depuis plus de 10 ans, je présenterai un aperçu du travail de localisation et de linguiste (informaticien, mais pas seulement!) dans l'industrie technologique. Après avoir décrit très généralement les différents enjeux de ces deux métiers, je décrirai un peu plus en profondeur le fonctionnement du moteur de recherche de Google et le travail de modélisation linguistique, puis je finirai en présentant un projet autours des expressions linguistiques genrées dans les différents produits Google, projet qui a mobilisé traducteur·ices et linguistes.

Emmanuelle Canut, professeure en linguistique, Université de Lille (UMR STL)

Lien vers la visioconférence • Slides

Abstrat :

Réfléchir et proposer des contenus de textes adaptés constitue un enjeu important pour les populations en difficulté face à l’écrit et/ou allophones. Les recherches sur le langage simplifié se sont étendues à des types de textes diversifiés (textes informatifs, narratifs, juridiques, médicaux…) et à d’autres terrains que celui du handicap, en prenant en compte toutes les personnes possiblement en situation d’insécurité linguistique (comme les personnes illettrées, non-native, enfants en difficulté d’apprentissage de la lecture, etc.) ; et avec des niveaux de compétences linguistiques différents selon l’âge, le degré de maîtrise de la langue, etc. (Lindholm & Vanhatalo, 2021 ; Maaß 2020). Le public allophone a notamment fait l’objet de recherches récentes (Ahrens, 2020 ; Canut et al, 2020 et 2023 ; Lombardi, 2020). Par ailleurs, plusieurs études tentent d’affiner les recommandations européennes en FALC. En effet, celles-ci sont assez généralistes et reposent sur des conceptions linguistiques relativement vagues et sujettes à de multiples interprétations, sans distinction des caractéristiques des publics visés ou des types de textes (Hansen-Schirra & Maaß, 2020).

Partant de ces constats, nous avons élaboré un référentiel de critères linguistiques pour simplifier les textes destinés à des publics dits vulnérables : des adolescents et adultes allophones peu littéraciés (faiblement scolarisés) ou en situation d’illettrisme (Canut et Husianycia, 2023). Nous proposons ici de présenter les choix opérés pour réaliser ce référentiel et de les illustrer par deux exemples de textes réécrits : un questionnaire réalisé par l’Institut des Politiques Publiques de Paris destiné à des chômeurs de longue durée (Territoire Zéro Chômeur de Longue Durée) et un livret d’accueil destiné à des adolescents incarcérés d’un établissement pénitentiaire pour mineurs (EPM, Quiévrechain).

En collaboration avec l'Association de Formation et de Recherche sur le langage (AsFoReL), l'Institut des Politiques Publiques (IPP, Paris) et la Protection Judiciaire de la Jeunesse (PJJ, EPM Quivrechain)

Références :

Ahrens S. (2020). Easy Language and Administrative Texts: Second Language Learners as a Target Group. Easy Language Research: Text and Users Perspectives, Hansen-Schirra, S. & Maaß, C. (eds.). pp. 67-98.
Canut E. et Husianycia M., 2023. Guide alt&rité. Référentiel pour l’Analyse Linguistique de Textes et la Rédaction Intelligible de Types d’Écrits. AsFoReL (Association de formation et de Recherche sur le Langage).
Canut E., Fuchs J., Delahaie J., Husianycia M., Torres O. (2023). ‘Easy Language’ for migrants in France: looking for linguistic criteria . International Journal of Applied linguistic. https://doi.org/10.1075/itl.22002.can.
Canut E., Delahaie J., Husianycia M. (2020). Vous avez dit FALC ? Pour une adaptation linguistique des textes destinés aux migrants nouvellement arrivés. Langage & Société 171, 171-201
Hansen-Schirra, S. & Maaß, C. (2020). Easy Language Research: Text and Users Perspectives. Berlin: Frank & Timme.
Lombardi, G. (2020). Capire I documenti en L2: dall’analisi della comprensibilità di un corpus di testi istituzionali per stranieri alla sperimentazione di approcci didttici e linguistici. Dottorato in Digital Humanities. Genova.
Lindholm, C. & Vanhatalo, U. (2021). Handbook of Easy Languages in Europe. Berlin: Frank & Timme.
Maaß, C. (2020). Easy Language, Plain Language, Easy Language Plus. Balancing Comprehensibility and Acceptability. Berlin:Frank & Timme.

Oksana Ivchenko, doctorante en traitement automatique du langage, Université de Lille

Lien vers la visioconférence • Slides

Abstrat :

This study explores the reading and comprehension of medical texts by analyzing eye-tracking data, focusing on passages that present reading difficulties. Given the complex language often found in medical documents, simplifying these texts is crucial for improving patient understanding and engagement. Our objectives are twofold: first, to identify text passages and words that pose challenges during reading, and second, to train a large language model (LLM) to predict eye-tracking features based on textual input.

We conducted an eye-tracking experiment with participants from different backgrounds, analysing their reading behaviour on different text types, including original and simplified medical documents. Our results reveal significant differences in fixation duration, number of fixations and regression patterns between text types and participant groups, with specific eye-tracking features highlighting difficult words and passages.

Initial results from language model training show promising predictions for fixation measures, indicating that the model can help identify text complexity. The next steps will be to extend this framework to a multitasking approach, in which the model simultaneously predicts eye-tracking characteristics and classifies text and reader types, paving the way for a more nuanced understanding of readability in medical contexts.

Anthony Cnudde, doctorant en bio-informatique, Université libre de Bruxelles

Lien vers la visioconférence • Slides

Abstract :

Les plantes médicinales sont largement utilisées par les patients, avec ou sans conseil professionnel. Les remèdes naturels ont en effet la réputation d'être sains et sans danger, et sont parfois opposés à la médecine conventionnelle. Cependant, les plantes sont composées d'une multitude de molécules susceptibles d'interagir entre elles, avec la physiologie du consommateur ou même avec d'autres traitements. Les interactions plante-médicament, si elles sont relativement rares, peuvent avoir de graves conséquences sur la santé des patients.

Pour permettre aux professionnels de santé --- parfois peu formés à ces problématiques --- de gérer ces interactions, une analyse approfondie de la littérature scientifique est nécessaire. Cette tâche est lourde et complexe, et l'existence de bases de données regroupant ces informations de manière fiable est d'une grande aide pour les praticiens. Cependant, remplir et maintenir à jour ces bases de données requiert énormément de temps et d'argent. La quantité d'articles présents dans la littérature augmente exponentiellement, de même que l'effort requis pour les synthétiser. Heureusement, les progrès continus dans le domaine de l'intelligence artificielle et du traitement du langage permettent de soulager les curateurs dans cette tâche.

Dans cette présentation, je donnerai un aperçu de comment les progrès dans le domaine de l'intelligence artificielle permettent de faciliter cette recherche d'information, et donc d'améliorer la prise en charge des patients. Je partirai des méthodes symboliques pour me diriger vers les méthodes plus récentes de Machine Learning, et partagerai ma vision de pharmacien des perspectives offertes par le nouveau paradigme qu'est l'intelligence artificielle générative.

Menu

cental | Louvain-la-Neuve

Programme de l'année académique 2024-2025

Prochains séminaires

Séminaires précédents

Suivez-nous

LinkedIn