Séminaires du CENTAL

Les séminaires du CENTAL ont pour but de réunir des enseignants, des étudiants et des chercheurs (du monde académique ou de l'industrie) intéressés par le traitement automatique de langues. Les séminaires sont gratuits et ouverts à tous et ont généralement lieu le vendredi de 14h à 15h à Louvain-la-Neuve. Si vous souhaitez être informé par courrier électronique des séminaires que nous organisons et des actualités du CENTAL, nous vous proposons de vous inscrire à la liste de diffusion du CENTAL en indiquant votre adresse électronique dans le formulaire.

Organisation 2024-2025

Yunqing Cui
Lingyun Gao

Calendrier 2024-2025

Séminaires à venir

Oksana Ivchenko (14h-15h du 15 novembre, Maison des langues • local A118 ) : Study of Medical Text Reading and Comprehension Through Eye-Tracking Fixations
Emmanuelle Canut & Juliette Delahaie (14h-15h du 22 novembre, auditoire MORE 57) : Simplifier des documents pour un public peu littéracié : enjeux, modalités et spécificités
Bruno Cartoni (14h-16h du 28 novembre, auditoire ERAS 58) : Les activités langagières dans l'industrie de la tech: Localisation et linguistique
Julien Zakhia Doueihi (14h-15h du 6 décembre, Maison des langues • local A004) : Thinking through gaming: an application of Concept-Based Instruction for the acquisition of French pronominal verbs for Japanese university students

Intervenants du premier semestre

18 octobre 2024 — Anthony Cnudde — Maison des langues • local A118
Extraire et structuer l'information: IA générative et analytique, et application à la pharmacologie

Anthony Cnudde, doctorant en bio-informatique, Université libre de Bruxelles

Lien vers la visioconférence

Slides

Abstract :

Les plantes médicinales sont largement utilisées par les patients, avec ou sans conseil professionnel. Les remèdes naturels ont en effet la réputation d'être sains et sans danger, et sont parfois opposés à la médecine conventionnelle. Cependant, les plantes sont composées d'une multitude de molécules susceptibles d'interagir entre elles, avec la physiologie du consommateur ou même avec d'autres traitements. Les interactions plante-médicament, si elles sont relativement rares, peuvent avoir de graves conséquences sur la santé des patients.

Pour permettre aux professionnels de santé --- parfois peu formés à ces problématiques --- de gérer ces interactions, une analyse approfondie de la littérature scientifique est nécessaire. Cette tâche est lourde et complexe, et l'existence de bases de données regroupant ces informations de manière fiable est d'une grande aide pour les praticiens. Cependant, remplir et maintenir à jour ces bases de données requiert énormément de temps et d'argent. La quantité d'articles présents dans la littérature augmente exponentiellement, de même que l'effort requis pour les synthétiser. Heureusement, les progrès continus dans le domaine de l'intelligence artificielle et du traitement du langage permettent de soulager les curateurs dans cette tâche.

Dans cette présentation, je donnerai un aperçu de comment les progrès dans le domaine de l'intelligence artificielle permettent de faciliter cette recherche d'information, et donc d'améliorer la prise en charge des patients. Je partirai des méthodes symboliques pour me diriger vers les méthodes plus récentes de Machine Learning, et partagerai ma vision de pharmacien des perspectives offertes par le nouveau paradigme qu'est l'intelligence artificielle générative.

15 novembre 2024 — Oksana Ivchenko — Maison des langues • local A118
Study of medical text reading and comprehension through eye-tracking fixations

Oksana Ivchenko, doctorante en traitement automatique du langage, Université de Lille

Lien vers la visioconférence

Abstrat :

This study explores the reading and comprehension of medical texts by analyzing eye-tracking data, focusing on passages that present reading difficulties. Given the complex language often found in medical documents, simplifying these texts is crucial for improving patient understanding and engagement. Our objectives are twofold: first, to identify text passages and words that pose challenges during reading, and second, to train a large language model (LLM) to predict eye-tracking features based on textual input.

We conducted an eye-tracking experiment with participants from different backgrounds, analysing their reading behaviour on different text types, including original and simplified medical documents. Our results reveal significant differences in fixation duration, number of fixations and regression patterns between text types and participant groups, with specific eye-tracking features highlighting difficult words and passages.

Initial results from language model training show promising predictions for fixation measures, indicating that the model can help identify text complexity. The next steps will be to extend this framework to a multitasking approach, in which the model simultaneously predicts eye-tracking characteristics and classifies text and reader types, paving the way for a more nuanced understanding of readability in medical contexts.

22 novembre 2024 — Emmanuelle Canut & Juliette Delahaie — MORE 57
Simplifier des documents pour un public peu littéracié : enjeux, modalités et spécificités

Emmanuelle Canut & Juliette Delahaie, professeures en linguistique, Université de Lille (UMR STL)

Abstrat :

【En collaboration avec l'Association de Formation et de Recherche sur le langage (AsFoReL), l'Institut des Politiques Publiques (IPP, Paris) et la Protection Judiciaire de la Jeunesse (PJJ, EPM Quivrechain)】

Réfléchir et proposer des contenus de textes adaptés constitue un enjeu important pour les populations en difficulté face à l’écrit et/ou allophones. Les recherches sur le langage simplifié se sont étendues à des types de textes diversifiés (textes informatifs, narratifs, juridiques, médicaux…) et à d’autres terrains que celui du handicap, en prenant en compte toutes les personnes possiblement en situation d’insécurité linguistique (comme les personnes illettrées, non-native, enfants en difficulté d’apprentissage de la lecture, etc.) ; et avec des niveaux de compétences linguistiques différents selon l’âge, le degré de maîtrise de la langue, etc. (Lindholm & Vanhatalo, 2021 ; Maaß 2020). Le public allophone a notamment fait l’objet de recherches récentes (Ahrens, 2020 ; Canut et al, 2020 et 2023 ; Lombardi, 2020). Par ailleurs, plusieurs études tentent d’affiner les recommandations européennes en FALC. En effet, celles-ci sont assez généralistes et reposent sur des conceptions linguistiques relativement vagues et sujettes à de multiples interprétations, sans distinction des caractéristiques des publics visés ou des types de textes (Hansen-Schirra & Maaß, 2020).

Partant de ces constats, nous avons élaboré un référentiel de critères linguistiques pour simplifier les textes destinés à des publics dits vulnérables : des adolescents et adultes allophones peu littéraciés (faiblement scolarisés) ou en situation d’illettrisme (Canut et Husianycia, 2023). Nous proposons ici de présenter les choix opérés pour réaliser ce référentiel et de les illustrer par deux exemples de textes réécrits : un questionnaire réalisé par l’Institut des Politiques Publiques de Paris destiné à des chômeurs de longue durée (Territoire Zéro Chômeur de Longue Durée) et un livret d’accueil destiné à des adolescents incarcérés d’un établissement pénitentiaire pour mineurs (EPM, Quiévrechain).

Références :

Ahrens S. (2020). Easy Language and Administrative Texts: Second Language Learners as a Target Group. Easy Language Research: Text and Users Perspectives, Hansen-Schirra, S. & Maaß, C. (eds.). pp. 67-98.
Canut E. et Husianycia M., 2023. Guide alt&rité. Référentiel pour l’Analyse Linguistique de Textes et la Rédaction Intelligible de Types d’Écrits. AsFoReL (Association de formation et de Recherche sur le Langage).
Canut E., Fuchs J., Delahaie J., Husianycia M., Torres O. (2023). ‘Easy Language’ for migrants in France: looking for linguistic criteria . International Journal of Applied linguistic. https://doi.org/10.1075/itl.22002.can.
Canut E., Delahaie J., Husianycia M. (2020). Vous avez dit FALC ? Pour une adaptation linguistique des textes destinés aux migrants nouvellement arrivés. Langage & Société 171, 171-201
Hansen-Schirra, S. & Maaß, C. (2020). Easy Language Research: Text and Users Perspectives. Berlin: Frank & Timme.
Lombardi, G. (2020). Capire I documenti en L2: dall’analisi della comprensibilità di un corpus di testi istituzionali per stranieri alla sperimentazione di approcci didttici e linguistici. Dottorato in Digital Humanities. Genova.
Lindholm, C. & Vanhatalo, U. (2021). Handbook of Easy Languages in Europe. Berlin: Frank & Timme.
Maaß, C. (2020). Easy Language, Plain Language, Easy Language Plus. Balancing Comprehensibility and Acceptability. Berlin:Frank & Timme.

28 novembre 2024 — Bruno Cartoni — ERAS 58
Les activités langagières dans l'industrie de la tech: Localisation et linguistique

Bruno Cartoni, linguiste chez Google

Abstrat :

En prenant l'exemple de Google où je travaille depuis plus de 10 ans, je présenterai un aperçu du travail de localisation et de linguiste (informaticien, mais pas seulement!) dans l'industrie technologique. Après avoir décrit très généralement les différents enjeux de ces deux métiers, je décrirai un peu plus en profondeur le fonctionnement du moteur de recherche de Google et le travail de modélisation linguistique, puis je finirai en présentant un projet autours des expressions linguistiques genrées dans les différents produits Google, projet qui a mobilisé traducteur·ices et linguistes.

Séminaires du CENTAL

Organisation 2024-2025

Calendrier 2024-2025

Séminaires à venir

Intervenants du premier semestre

18 octobre 2024 — Anthony Cnudde — Maison des langues • local A118 Extraire et structuer l'information: IA générative et analytique, et application à la pharmacologie

15 novembre 2024 — Oksana Ivchenko — Maison des langues • local A118 Study of medical text reading and comprehension through eye-tracking fixations

22 novembre 2024 — Emmanuelle Canut & Juliette Delahaie — MORE 57 Simplifier des documents pour un public peu littéracié : enjeux, modalités et spécificités

28 novembre 2024 — Bruno Cartoni — ERAS 58 Les activités langagières dans l'industrie de la tech: Localisation et linguistique

18 octobre 2024 — Anthony Cnudde — Maison des langues • local A118
Extraire et structuer l'information: IA générative et analytique, et application à la pharmacologie

15 novembre 2024 — Oksana Ivchenko — Maison des langues • local A118
Study of medical text reading and comprehension through eye-tracking fixations

22 novembre 2024 — Emmanuelle Canut & Juliette Delahaie — MORE 57
Simplifier des documents pour un public peu littéracié : enjeux, modalités et spécificités

28 novembre 2024 — Bruno Cartoni — ERAS 58
Les activités langagières dans l'industrie de la tech: Localisation et linguistique