Séminaire du CENTAL (archives 2019-2020)

CENTAL Louvain-La-Neuve

Organisation 2019-20

Erika Lombart
Violeta Gutierrez Figueroa

 

Calendrier 2019-20

Premier quadrimestre

31/10 — Olga Seminck — Cognition et TAL

Olga Seminck
UCLouvain - IoNS, MiiL et Cental

Abstract: 

Étant nouvellement arrivée au CENTAL, je présenterai deux sujets - l’un actuel, l’autre passé – afin de donner un aperçu global de mon travail.

Mes recherches s’articulent autour de l’utilisation de modèles computationnels permettant d’étudier des questions cognitives/linguistiques. J’utilise en effet la modélisation informatique afin de répondre à des questions de nature cognitive et linguistique.

La première présentation portera sur ma thèse (« La modélisation cognitive et computationnelle de la résolution des pronoms ») qui avait pour objectif de trouver des modélisations computationnelles reflétant la charge cognitive de la résolution des pronoms. Pour ce faire, j’ai notamment travaillé sur un corpus d’oculométrie afin de déterminer s’il était possible de prédire la lecture des pronoms en fonction de leurs caractéristiques linguistiques.

La seconde présentation traitera du projet MIND-IT pour lequel j’ai été engagée à l’UCL. Le but de ce projet est de proposer une méthode efficace, bon marché et non invasive dédiée à la détection précoce de la maladie d’Alzheimer. Cette recherche analyse l’historique des conversations électroniques de participants malades et sains afin de définir un modèle informatique capable de détecter un déclin du niveau linguistique pouvant être l’un des premiers signes de la maladie.

Date : Jeudi 31 octobre 2019
14h00-15h00

Lieu : e221

Slides ici

21/11 — Serge Bibauw — Systèmes de dialogue pour l'apprentissage des langues: typologie des systèmes et mesure des effets

Serge Bibauw
ITEC, KU Leuven & CENTAL, UCLouvain

Abstract : 

Les systèmes de dialogue pour l'apprentissage des langues regroupent différentes applications permettant à un apprenant de langue étrangère de converser, oralement ou par écrit, avec un interlocuteur automatisé (chatbot, robot, interface vocale, personnage non-joueur, etc.). À partir d'une synthèse systématique de la littérature scientifique sur ces systèmes, je présenterai un tour d'horizon des différentes expériences de développement, débouchant sur une typologie des systèmes de dialogue pour l'apprentissage des langues. Je mettrai l'accent sur les approches technologiques utilisées, avec leurs implications et apports respectifs.

Dans un deuxième temps, je montrerai comment l'efficacité de ces différents systèmes a été évaluée empiriquement. Dans des études antérieures d'abord, à travers une méta-analyse des effets sur l'apprentissage des langues. Dans une étude expérimentale ensuite, avec un jeu dialogique pour l'apprentissage du français, dont nous avons mesuré les effets en termes de développement du vocabulaire et de la fluence, dans un processus semi-automatisé de passation et d'analyse d'entretiens oraux. Je discuterai des leçons de cette étude et des pistes les plus prometteuses qu'elle ouvre pour la recherche et les applications d'apprentissage des langues.

Référence :

Bibauw, S., François, T., & Desmet, P. (2019). Discussing with a computer to practice a foreign language: Researchsynthesis and conceptual framework of dialogue-based CALL. Computer Assisted LanguageLearninghttps://doi.org/10.1080/09588221.2018.1535508

Date : Jeudi 21 novembre 2019
14h00 - 15h00

Lieu :  e 221

Slides : ici

05/12 — Bertrand De longueville — Measuring the Power of Emotions on the (social) web : a journey of TextMiners towards "mindful politics"

Bertrand De longueville
Team Leader – Text Mining and Analysis Competence Centre

Abstract : 

This presentation is two-fold : first, I will give an overview the ongoing research activities at the European Commission's Joint Research Centre in the field of Text Mining and Analysis. Next, I will zoom on a specific piece of work we presented recently at the Web Summit, related to the characterisation of the European Emotional Landscape throughNatural Language Processing of online sources. It capitalises on a 10+ year-long effort of online media monitoring, and recent advances on Sentiment Analysis from both media and social media sources.

Date : Jeudi 05 décembre 2019
14h00 - 15h00

Lieu : d.144 (Dupriez)

Slides : ici

12/12 — Benoît Crabbé — Modèles de langue pour prédire la complexité syntaxique

Benoît Crabbé
Université Paris Diderot, IUF, UFRL, LLF, FR

Abstract : 

L’arrivée de l’apprentissage profond pour la modélisation du langage ouvre de
nouvelles perspectives pour la modélisation de la structure de la phrase.

Dans cet exposé on s’intéressera au problème de prediction de la complexité syntaxique à l’aide de modèles de langues.
Les modèles de langue traditionnels sont en général séquentiels, mais on peut également créer des modèles de langue qui font une hypothèse
de structuration en arbre de la phrase. On verra comment ces différents modèles s’incarnent dans le paradigme de l’apprentissage profond ainsi que des perspectives de modélisation nouvelles issues de ce paradigme.

On présentera enfin un aperçu de problématiques de recherche spécifiques à la conception de parsers neuronaux génératifs ainsi que leurs limitations actuelles

DateJeudi 12 décembre 2019
14h00 - 15h00

Lieu : e.221

Slides : ici

19/12 — Peter Dirix — Introduction to Speech Recognition & Linguistics

Peter Dirix
Manager of ASR Core Linguistic Resources chez Cerence Inc.

Abstract :

While there existed research into speech recognition even before there were computers and dictation software has beenavailable since the 1990s, the major breakthrough to the general public only happened over the last ten years. Smart TVs, smart cars, and particularly smartphones are now widely available and controllable by human voice.

After a very short summary of the history of automatic speech recognition (ASR), I will give an introduction to the basic components of an ASR system: the decoder, the acoustic model, the language model and the pronunciation lexicon. Thereafter, the training, testing and possible adaptation of the those components will be discussed, as well as the data needed for the various steps. I will also mention some issues and challenges for the future.

To conclude, I will discuss some of tasks of (computational) linguists at a speech recognition company. Those include but are not limited to the creation and maintenance of the pronunciation lexica and pre- and post-processing tools, as well as the development of grammars for the creation of training data and recognition grammars (controlled language), and finally the analysis of bug reports and field data.

Références :

Daniel Jurafsky and James H. Martin, "Speech and Language Processing: An Introduction to Natural LanguageProcessing, Computational Linguistics, and Speech Recognition", 2nd Edition (2009). Prentice-Hall. ISBN 978-0131873216

Xuedong Huang, Alex Acero, anbd Hsiao-Wuen Hon, "Spoken Language Processing: A Guide to Theory, Algorithm and System Development" (2001). Prentice-Hall. ISBN 978-0130226167.

 

Dong Yu and Li Deng, "Automatic Speech Recognition: A Deep Learning Approach" (2015). Springer. ISBN 978-1447157786.

Date : Jeudi 19 décembre 2019
14h00 - 15h00

Lieu : LECL 72

Slides : ici


Deuxième quadrimestre

En raison des mesures de précaution liées au coronavirus, les conférences seront assurées par visio-conférence.

05/03 — Els Lefever — Cyberbullying Detection, Irony Detection & Opinion Mining in Distributional and DeepSemantic Text Analysis

(Série de conférences TNT - Third Numerical Thursday, Chaire Altissia en Cultures et Éthique du Numérique)

Date : Jeudi 5 mars 2020
15h00 - 16h00

Lieu : Salle du Conseil (Collège Erasme)

Slides : ici

30/04 — Anaïs Tack — Predicting the difficulty of words for L2 readers: An empirical investigation into meaning-based and personalized word-level readability assessment with lexicon, statistical, and machine learning methods. 

Anaïs Tack

CENTAL - UCLouvain, ITEC, imec research group - KU Leuven

 

With vocabulary being one of the core aspects of successful reading comprehension in the foreign language (L2), a critical issue in educational technology development is to research methods that can ensure, for a given learner, the readability of the material at the word level. In the area of computational linguistics in particular, a recent number of studies have therefore developed various heuristics and models for predicting lexical  difficulty in reading. However, thereare two restrictions in the current methodology that might pose a limit on achieving more accurate and learner-tailoreddiagnostics. On the one hand, there is the issue of  contextualization. Given that lexical difficulty is often estimated frommeasurements and rankings of words appearing in isolation, these estimates might not accurately inform us about the difficulty involved in reading words in context. On the other hand, there is the issue of personalization. Seeing that recentadvances in machine learning require the availability of sizable data, studies often resort to aggregated and crowdsourced  annotations to optimize the data collection process, which leads to a loss in valuable information on the variability in difficulty among learners. The aim of this presentation is therefore to look into the ways in which we could address thesetwo limitations.

In the first part, I will give a systematic scoping review of previous studies that examined lexical competence in L2 reading and which predicted the effect of various factors on the construct measured as a dependent variable. The synthesis, which covers 125 publications and spans almost 50 years of research, aims to be methodological in nature in that it provides an overview of the types of measurements and predictors investigated to date. After having defined the scope of research for lexical competence in general, I will then zoom in on the construct of lexical difficulty in particularand briefly review how recent benchmarks have furthered the development of automated methods.

In the second part, I will compare two types of empirical measures of lexical difficulty. First, I will look at a priori knowledge of difficulty which can be drawn from reading material attested in textbooks and readers graded along the CEFR (Common European Framework of Reference) scale. As a follow-up on previous work on the use of CEFR-gradedword  frequencies for French L2 (Tack, François, Ligozat, & Fairon, 2016a, 2016b), I will investigate the added value of word-sense disambiguation (WSD) through the development of a similar resource for Dutch L2, viz. NT2Lex (Tack, François, Desmet, & Fairon, 2018). In particular, I will look at the link between WSD and semantic complexity measuressuch as hypernymy and contrast the distribution of cognates in the French and Dutch lexicons. Next, in order to accountfor a number of limitations in using this lexicon-based approach, the focus will be shifted towards using a posteriori knowledge of difficulty as measured in self-paced reading. Since the construct of difficulty can be defined and operationalized in various ways, I will concentrate on the use of subjective judgments to understand what triggers learnersof French to notice difficulty while reading.

In the final part, I will discuss the use of statistical and machine learning methods to learn to predict diffculty from the previously collected learner data. In particular, two types of predictive analyses will be discussed. On the one hand, I will make use of Hierarchical Generalized Linear Mixed Models (HGLMMs) to integrate randomness at the subject level intoa number of fixed effects selected from more than 200 features of lexical complexity. The results indicate that a small set of features are sufficient to explain the majority of the variance (.61 ≤ R2 ≤ .86). On the other hand, the results alsocorroborate findings that most of the variance in the complexity features can be accounted for by state-of-the-art 300-dimensional word embeddings. Enhancing deep neural networks with both contextualization and personalizationsignificantly betters the discriminative
power as well as the correlation with learner judgments.

References: 

Tack, A., François, T., Desmet, P., & Fairon, C. (2018, June). NT2Lex: A CEFR-Graded Lexical Resource for Dutch as a Foreign Language Linked to Open Dutch WordNet. In Proceedings of the Thirteenth Workshop on Innovative Use of NLP for Building Educational Applications (pp. 137–146). New Orleans, Louisiana: Association for Computational Linguistics. Retrieved June 1, 2018, from https://www.aclweb.org/anthology/W18-0514

Tack, A., François, T., Ligozat, A.-L., & Fairon, C. (2016a, May 23–28). Evaluating Lexical Simplification and Vocabulary Knowledge for Learners of French: Possibilities of Using the FLELex Resource. In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016) (pp. 230–236). LREC. Portorož, Slovenia: European Language Resources Association. Retrieved from http://www.lrec-conf.org/proceedings/lrec2016/pdf/544_Paper.pdf

Tack, A., François, T., Ligozat, A.-L., & Fairon, C. (2016b, July 4–8). Modèles adaptatifs pour prédire automatiquement la compétence lexicale d’un apprenant de français langue étrangère. In Actes de la 23ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN’16) (pp. 221–234). TALN. Paris, France: ATALA. Retrieved from https://jep- taln2016.limsi.fr/actes/Actes%20JTR-2016/Papers/T22.pdf

Date : Jeudi 30 avril 2020
14h00-15h00

Lieu : Conférence Teams

Slides : ici

07/05 — Gudrun Ledegen — Analyse d'un site de tchat de prévention du suicide (analyse de discours, sociolinguistique, lexicométrie et IA)

Gudrun LEDEGEN

PU Sciences du Langage, Université Rennes 2 (France), Pôle de recherche Francophonie, Interculturel, Communication, Sociolinguistique (PREFICS) - EA 7469

Abstract :

L’étude présentée analyse la difficile tâche d’une association de prévention du suicide, qui, après avoir été longtemps téléphonique, est passée depuis quelques années aussi à l’écrit via « l’interface chat ». Ce nouveau mode d’accueil se révèle fortement marqué par l’absence de la voix de l’interlocuteur, et de sa prosodie, rendant l’empathie difficile à communiquer (Ledegen 2019, 2020). S’inscrivant dans l’approche de la sociolinguistique d’intervention (Bulot 2008) et de l'analyse du discours (, notre analyse tente de répondre aux interrogations des responsables et des intervenants sur le chat de prévention du suicide, en termes d’efficacité de l’accueil et des discours produits (en lien par exemple avec les différences générationnelles dans les patrons de communication, les bénévoles étant en grande majorité des personnes âgées, et le site étant mis en place spécifiquement pour le public jeune, peu enclin à utiliser le téléphone). Le but ici est de présenter une analyse sociolinguistique du discours de ce corpus de confidences (Kerbrat-Orecchioni & Traverso 2007) : particularités registrales, organisation conversationnelle, dysfonctionnements dans l’interaction... L’approche suivie sollicite la sociolinguistique, l’analyse conversationnelle et interactionnelle, ainsi que discursive et lexicométrique, pour cerner toute la complexité de ce chat de prévention, et en tirer des leçons en vue de la formation des bénévoles (tchatbot, alerte en ligne...). 

Références : 

Bulot Thierry. 2008. Une sociolinguistique prioritaire. Prolégomènes à un développement durable urbain et linguistique. In Agir ET penser - Les Rencontres De Bellepierre, url : http://www.lrdb.fr, La Réunion.

Kerbrat-Orecchioni Catherine &/ Traverso Véronique (eds). 2007. Confidence/dévoilement de soi dans l’interaction, De Gruyter.

Ledegen G. (2019). « “Bonsoir. Je vais mal”. La difficile expression du dévoilement de soi et de l’empathie dans un chat de prévention du suicide », in Abécassis M., Block M., Ledegen G., Peñalver Vicea M., Le grain de la voix dans le monde anglophone et francophone. Oxford : Peter Lang, 193-214.

Ledegen G. & Wagener A. (2020). « "Nous ne doutons pas de votre souffrance" : analyse pragmatique et sociolinguistique du nous de distanciation dans un chat de prévention du suicide », Corpus [En ligne], 21

Date : Jeudi 7 mai 2020
14h00-15h00

Lieu : Conférence Teams

Slides : ici