Les séminaires du CENTAL ont pour but de réunir des enseignants, des étudiants et des chercheurs (du monde académique ou de l'industrie) intéressés par le traitement automatique de langues. Les séminaires sont gratuits et ouverts à tous et ont généralement lieu le vendredi de 14h à 15h. Si vous souhaitez être informé par courrier électronique des séminaires que nous organisons et des actualités du CENTAL, nous vous proposons de vous inscrire à la liste de diffusion du CENTAL en indiquant votre adresse électronique dans le formulaire.
Organisation 2023-2024
Calendrier 2023-2024
Intervenants du premier semestre
27 octobre 2023 — Erika Lombart — Doyen 22
L'implicite sur les réseaux sociaux: Entre les lignes des forums de discussion
Erika Lombart, PhD en linguistique, Logisticienne de recherche SHS UNamur, Collaboratrice scientifique ILC
Abstract :
L'implicite, mieux connu sous le nom de sous-entendu, est partout. Que ce soit pour mieux se faire comprendre, pour attirer l'attention de notre auditeur, pour s'assurer qu'un message passe bien ou au contraire qu'il sera le plus piquant possible… L'implicite est un outil précieux auquel nous recourons sans même nous en rendre compte. Mais qu'en est-il sur les réseaux sociaux ? Cette recherche analyse l'utilisation et la construction de l'implicite dans les forums de discussion de Doctissimo. Au départ des figures de la rhétorique et de la pragmatique, elle aboutit à une catégorisation innovante des formes de l'implicite non conventionnel et met en lumière leur lien avec l'intensité émotionnelle de la communication et leur rôle-clé dans la gestion relationnelle qui s'y joue.
3 novembre 2023 — Emmanuelle Salin — Doyen 22
Multimodal machine learning: the case of vision-language transformers
Emmanuelle Salin, doctorante au Laboratoire d'Informatique et Systèmes, Aix Marseille Université
Abstract :
Vision-Language transformer models combine information from the textual and visual modalities to extract multimodal representations. These models can be used as a basis for many multimodal vision-language tasks. Large pre-trained models based on the transformer architecture, inspired by recent advances in Natural Language Processing, have enabled great improvement on those tasks.
In this presentation, I will give an overview of vision-language transformer models. I will introduce the different types of models, in terms of architecture and pre-training methods. I will also present the strengths and weaknesses of those different methods. Finally, I will talk about current challenges and emerging trends of research in vision-language machine learning.
17 novembre 2023 — Danqing Huang — Doyen 22
Diachronic Prototype Semantics of Chinese Radicals
Danqing Huang, data manager at the ILC (UCLouvain) & affiliated researcher at the QLVL (KU Leuven)
Abstract :
Chinese radicals are the semantic components of Chinese characters that generally indicate major concepts and categories. Characters that share the same radical may be semantically linked in various ways to the broad semantic category that the radical represents, and radicals may thus be considered a categorization mechanism to distinguish lexical meanings (see Chen 2012). However, traditional studies of Chinese characters or radicals in Chinese linguistics are philological in nature (e.g. Lu & Wang 1994; Wang 1996), which tend to focus on the origin of radicals and characters, their graphemic development through time, and the symbolic connection between the character’s graphemic form and its phonetic aspect. In other words, not only has the cognitive aspect of Chinese radicals been neglected, but also prototype-based studies of Chinese radicals seem to be a missing corner.
To fill this research gap, this study takes the perspective of Cognitive Linguistics to determine which role radicals play as a way of categorization in Chinese characters. Concretely, the project focuses on the FIRE character given that FIRE is an independent character that can also be used as a radical in composite characters. The question arises as to what extent the semantic developments of the FIRE character and the FIRE radical are similar and whether it is possible that the FIRE radical develops independently of the FIRE character. In a first case study, I therefore investigate how the senses of the internal semantic structure of the FIRE character connect as a network. In a second case study, I analyze the semantic structure and development of the FIRE radical as well as the semantic network of composite characters in which the FIRE radical is involved. Finally, I look into variant characters and paronyms incorporating the FIRE radical in order to find out the semantic functions of radicals in so-called radicalization processes, whereby a radical is either added, replaced or removed from a character. Although the semantic structure of the FIRE radical overlaps with that of the FIRE character to a large extent, we find that the radical features independent developments, which are due to the semasiological change of the FIRE radical, internal semantic changes within composite characters and external mechanisms such as phonetic loaning and analogy.
1er décembre 2023 — Regina Stodden — Doyen 22
German Text Simplification : Scarce Data and Other Challenges
Regina Stodden, PhD student in computational linguistics, Heinrich Heine University Düsseldorf
Abstract :
Text simplification is an intra-lingual translation task in which documents or sentences of a complex source text are simplified for a specific target audience. Many new models for text simplification have been proposed in recent years and months, but unfortunately, we often cannot be very sure of their quality. In most cases, we know too little about the training data and what kind of simplification we can expect from the models. In addition, we too often rely on controversial automatic evaluations, especially in languages other than English. In our view, the success of automatic text simplification systems depends as much or even more on the quality of the parallel data used for training and evaluation than on the text simplification models themselves.
This talk will look at each point of the text simplification pipeline, particularly the data and annotation aspect, and discuss how it could be improved. For example, it will include i) facilitating the construction of new high-quality text simplification corpora, ii) improving existing corpora through new annotations, including annotations of a) simplification operations, b) quality assessment, and c) error operations, and iii) rethinking the current evaluation process. We will illustrate the problematic areas using German texts as an example.
15 décembre 2023 — Barbara Plank — More 56 (GPLO-DROIT)
Human label variation in NLP
Barbara Plank, LMU Munich & IT University of Copenhagen (ITU)
Abstract :
Human variation in labeling is typically considered noise. Annotation projects in computer vision and natural language processing typically aim at minimizing human label variation, to maximize data quality and in turn optimize and maximize machine learning metrics. However, variation in human labeling is ubiquitous, and the typical approach of minimizing human label variation by aggregation disregards human label variation. There exists increasing evidence that human label variation is signal rather than noise. In this talk, I will first illustrate the problem and then discuss approaches to tackle this fundamental issue at the interplay of language resources, data quality, machine learning modeling and evaluation. Overall, I will argue that looking at human label variation is critical for devising more human-facing, trustworthy language technology.
Intervenants du deuxième semestre
15 mars 2024 — Thomas François et Rodrigo Souza Wilkens — MDL A118
Correction de productions écrites des apprenants du français assistée par ordinateur
Thomas François, professeur du CENTAL, UCLouvain
Rodrigo Souza Wilkens, chercheur du CENTAL, UCLouvain
Abstract :
L'évaluation des connaissances en langue est un enjeu fondamental, avec un large spectre d'implications sociales, en particulier dans le contexte des certifications de langues officielles. Les certificats officiels du niveau de compétence linguistique ont un effet direct sur des processus à fort enjeu telles que la naturalisation, la résidence, l'accès au marché du travail ou l’admission dans une l'université. Récemment, la nécessité d'obtenir des certificats attestant des compétences linguistiques s'est accentuée, créant une pression sur les organisations de certification qui ne sont plus en mesure de former suffisant de nouveaux évaluateurs (en raison de contraintes humaines, financières et temporelles). En réponse à ce besoin, la correction automatisée des textes (CAT) vise à déterminer automatiquement le niveau de compétence des candidats à l'aide de techniques de traitement automatique des langues (TAL). Cependant, les modèles CAT actuels, reposant sur l’apprentissage profond, nécessitent de larges corpus afin d’obtenir de bonnes performances. Malheureusement, il n'existe pas de corpus d’apprenants annotés selon l’échelle du CECR suffisamment large pour le français, ce qui rend la situation de la CAT en français loin d'être encourageante. Dans ce contexte, nous avons étudié, en collaboration avec France Éducation International, la faisabilité d'un système de CAT pour des productions écrites d’apprenants en français. Notre présentation sera organisée selon trois parties. Tout d'abord, nous exposerons l'état de l'art, les corpus existants et leurs caractéristiques, ainsi qu'une synthèse des techniques de CAT. Ensuite, nous présenterons le corpus TFCLE-8, qui contient plus de 6 000 productions écrites en français évaluées dans le contexte de l’examen de langue test de connaissance du français (TCF). Enfin, nous décrirons des expériences de CAT pour le français et nous discuterons les facteurs qui ont un impact sur la performance des modèles de CAT.
22 mars 2024 — Yves Peirsman — MDL A118
NLP for compliance in the mobility sector
Yves Peirsman, language technologist, co-founder and CTO of Deontic
Abstract :
Compliance is a major struggle for companies in the mobility sector. In order to bring their vehicles and machines to the market, these need to comply with all applicable laws, regulations and standards. In this talk, I will show how Natural Language Processing, and in particular Large Language Models, can help companies find their way through this maze of regulatory requirements. Classifiers can determine the topic of a text and make it easier to manage vast amounts of information and make them more accessible. Question answering techniques can help users find the answer to their questions about regulatory data, and notify them when a relevant piece of legislation or a standard changes. Finally, code generation models can help output machine-readable versions of product requirements and testing scenarios, so that engineers spend less time coding these themselves. Several use cases from our work at Deontic will demonstrate how NLP can help increase productivity, bring down the time to market for the vehicles they develop, and ultimately improve the safety of the people that use these vehicles.
26 mars 2024 — Jonas Granfeldt — Salle Jean Ladrière (Bâtiment Socrate)
Les recherches sur les stades de développement des apprenants suédophones en français L2 : Réflexions épistémologiques et méthodologiques
Jonas Granfeldt, professor of French linguistics, Lund University
Abstract :
Dans cette intervention, nous proposerons d’abord une vue d’ensemble des recherches sur les stades de développement du français L2 telles qu’elles se développent au sein de l’équipe de l’université de Lund (Suède) depuis 30 ans (cf. Bartning & Schlyter, 2004 ; Ågren, Granfeldt & Schlyter, 2012). Ce survol sélectif nous permettra ensuite de mener une réflexion épistémologique sur la notion même de « stade de développement/acquisition » telle que définie dans la littérature et dans nos recherches, ce qui nous mènera ensuite à une discussion de choix méthodologiques qui, eux, sont étroitement liés à des prises de positions théoriques. Nous terminerons par quelques remarques sur l’avenir possible des recherches sur le français L2 dans ce domaine.
Références :
Bartning, I., & Schlyter, S. (2004). Itinéraires acquisitionnels et stades de développement en français L2. Journal of French language studies, 14(3), 281-299.
Ågren, M., Granfeldt, J., & Schlyter, S. (2012). The growth of complexity and accuracy in L2 French: Past observations and recent applications of developmental stages. In A. Housen, F. Kuiken, & I. Vedder (Eds.), Dimensions of L2 performance and proficiency: Complexity, accuracy and fluency in SLA (pp. 95–120). Philadelphia/Amsterdam: John Benjamins.
29 mars 2024 — Campfire AI — MDL A118
How NLP & LLM's are key to the success of conversational AI projects, cases and demonstration by Campfire AI
Alexis Safarikas, CEO and Managing Partner of Campfire AI
Tomas Staelens, CTO of Campfire AI
Abstract :
Explore the practical integration of natural language processing (NLP) and Large Language Models (LLMs) in solving real-world business challenges with Campfire AI. Our presentation will highlight how we've applied NLP across customer support, HR, and process optimisation, demonstrating the value of technology in tangible business contexts. Featuring projects involving UCL alumni, we aim to illustrate the potential for students and to engage with NLP beyond research.
26 avril 2024 — Iris Eshkol Taravella — MDL A118
Donne-moi la transcription de ta parole et je te dirai qui tu es
Iris Eshkol Taravella, professeure de Sciences du langage, Université Paris Nanterre
Abstract :
La communication cherche à montrer comment les corpus oraux transcrits contribuent aux recherches dans le domaine du TAL. Il peut s'agir de l'étude outillée de phénomènes linguistiques, du développement d'outils pour traiter l'oral ou pour reconnaître automatiquement un phénomène. Les corpus oraux peuvent ainsi être exploités comme une source d'informations mais aussi comme un objet d'étude. Après avoir présenté le panorama de recherches dans le TAL portant sur les corpus oraux, nous décrirons deux travaux qui permettent de prédire automatiquement le profil du locuteur : la classification automatique de questions en spontanée vs préparée et la prédiction automatique de l'âge du locuteur.