Les séminaires du CENTAL ont pour but de réunir des enseignants, des étudiants et des chercheurs (du monde académique ou de l'industrie) intéressés par le traitement automatique de langues. Les séminaires sont gratuits et ouverts à tous et ont généralement lieu le jeudi de 14h à 15h dans les locaux du Collège Léon Dupriez. Si vous souhaitez être informé par courrier électronique des séminaires que nous organisons et des actualités du CENTAL, nous vous proposons de vous inscrire à la liste de diffusion du CENTAL en indiquant votre adresse électronique dans le formulaire.
Vous pouvez intégrer le calendrier des séminaires dans votre agenda : https://calendar.google.com/calendar/ical/68k8f5m00nl9qil8pfjfp17res%40group.calendar.google.com/public/basic.ics
Organisation 2020-21
Calendrier 2020-21
22 octobre 2020 — Philippe Viallon
Médias sociaux ou médias dits sociaux
Philippe Viallon, Professeur des universités, Université de Strasbourg, Chaire Unesco « Pratiques journalistiques et médiatiques », UR 2310, LISEC.
Abstract :
En quelques années, les médias sociaux ont envahi nos vies. Que ce soit pour partager des informations professionnelles ou privées, rechercher un(e) partenaire ou un travail, ou simplement pour téléphoner gratuitement, ils ont non seulement conquis la génération Y qui a grandi avec eux, mais également rattrapé les générations plus anciennes. Le développement de l’usage des smartphones, avec leur capacité à s’affranchir de valeurs aussi essentielles que le temps et l’espace, a largement contribué à leur succès. Cette intervention revient sur le fonctionnement de cette nouvelle forme de communication, entre virtualité et réalité, entre bien et mal, et explique ce qui rend le phénomène si complexe.
Références:
BOYD D., 2016, C’est compliqué. Les vies numériques des adolescents, Caen, C&F Éditions.
CARDON D., 2015, À quoi rêvent les algorithmes : nos vies à l’heure des big data, Paris, Seuil.
CARDON D., 2019, Culture numérique, Paris, Presses des sciences Po.
FRAU-MEIGS D., 2019, Faut-il avoir peur des Fake News ?, Paris, La documentation française.
VIALLON P., TRESTINI M., 2019, Cultures numériques : cultures paradoxales ? Paris, L’Harmattan.
VIALLON P., GARDERE E., (2020), Médias dits sociaux ou médias dissociants, Louvain-laNeuve, De Boeck.
WOLTON D., 2013, « L’incommunication : horizon de la communication », in LEPASTIER S., L’incommunication, Hermès, les essentiels, Paris : CNRS Éditions.
Date et heure : 22 octobre 2020 de 14h00 à 15h00
Lieu : Le séminaire se tiendra à la fois en présentiel et en visioconférence. Afin de respecter les mesures sanitaires en vigueur, les personnes désireuses d'assister à la conférence sur place doivent impérativement s'inscrire en envoyant un mail à erika.lombart@uclouvain.be avant mardi 20 octobre. La conférence se tiendra à la Salle du Conseil, Collège Erasme, place Blaise Pascal, Salle du Conseil FIAL
Les personnes désireuses de suivre la conférence à distance peuvent le faire sur Teams via ce lien.
03 décembre 2020 — Dominique Casanova
Notation automatique de productions écrites en français langue étrangère ou seconde
Dominique Casanova, Responsable du développement scientifique, Le français des affaires.
Abstract :
L’évaluation de productions écrites par des correcteurs humains pose des questions de coût, de délais et de fiabilité. Les concepteurs de tests de langue explorent donc les possibilités offertes par le traitement automatique des langues et l’apprentissage automatique pour mettre au point des systèmes de notation automatique. Ils réfléchissent également à l’utilisation pertinente qui peut être faite de tels outils dans des contextes d’évaluation à forts enjeux. Cette intervention présente les travaux en cours au Français des affaires, dans le domaine de la langue française et pour un public au niveau de langue variable.
Références :
Baranes, M. (2015). Normalisation orthographique de corpus bruités. Thèse de doctorat, Université Paris Diderot – Sorbonne Paris Cité, https ://hal.inria.fr/tel-01226159/document
Casanova, D., Aw, A. & Demeuse, M. (2020). Monitorer la qualité des évaluations humaines au moyen d'un correcteur automatique. Présentation lors du 32e colloque de l'ADMEE-Europe. 22-24 janvier 2020, Casablanca. https://www.researchgate.net/publication/339677202_Monitorer_la_qualite_des_evaluations_humaines_au_moyen_d'un_correcteur_automatique
Laurier, M. D. & Diarra, L. (2009). L’apport des technologies dans l’évaluation de la compétence à écrire. Dans Évaluation des apprentissages et technologies de l’information et de la communication. Enjeux, Application et Modèles de mesure. (Dir. Jean-Guy Blais). Les presses universitaires de Laval, Canada.
Shermis, M. D. & Burnstein J. (2003). Automated essay scoring: A cross-disciplinary perspective. Mahwah, NJ: Lawrence Erlbaum Associates.
Date et heure : Le 03 décembre 2020 de 14h00 à 15h00
Lieu : Afin de respecter les mesures sanitaires en vigueur, la conférence se tiendra en visioconférence. Elle est accessible via ce lien.
Lien vers l'enregistrement de la conférence : https://web.microsoftstream.com/video/8e19313a-d314-411b-adfd-7897a5125bc4. En cas de souci pour visionner la vidéo, merci de contacter Erika Lombart ou Eva Rolin.
11 février 2021 — Sébastien Annys
Soline, une plateforme de contrôle d'environnement multimodale, modulaire et évolutive
Sébastien Annys, Administrateur de Home Based srl
Abstract :
Soline est une plateforme de contrôle d’environnement multimodale, modulaire et évolutive. Elle permet aux personnes en perte d’autonomie de retrouver le contrôle des équipements de leur habitation, d’une manière adaptée à leurs capacités actuelles et futures. Regroupant une dizaine de modes d’interaction différents, elle permet de les combiner afin de garantir à ses utilisateurs une disponibilité tout au long de la journée, quel que soit l’heure ou leur état. Son mode d’interaction principal, la voix, s’adapte aux défauts de prononciation de ses utilisateurs, ce qui rend Soline adéquate à son utilisation par des personnes qui n’ont pas une diction claire. La seule contrainte est une reconnaissance effective et constante des sons émis. Le découplage entre l’analyse du son et l’analyse sémantique permet un travail par mot clé et de s’affranchir des erreurs de transcriptions commises par le moteur de reconnaissance vocale.
Références : www.home-based.eu
Date et heure : Le 11 février 2021 de 14h00 à 15h00
Lieu : Afin de respecter les mesures sanitaires en vigueur, la conférence se tiendra en visioconférence. Elle est accessible au lien suivant : Conférence Teams - Sébastien Annys. Si vous rencontrez des problèmes pour vous connecter, n'hésitez pas à contacter Erika Lombart (erika.lombart@uclouvain.be).
11 mars 2021 — Hugues de Mazancourt
La génération en langage naturel : répondre aux contraintes industrielles
Hugues de Mazancourt, VP Innovation à Yseop et président de l'APIL (Association des Professionnels des Industries de la Langue - www.apil-asso.fr)
Abstract :
La recherche industrielle a récemment mis au devant de la scène des modèles massifs dédiés à la génération en langage naturel (NLG). Ces modèles, basés sur des architectures de type Transformer semblent présenter des qualités inégalées. Pourtant, les technologies mises en œuvre par les éditeurs de NLG semblent très loin de ces systèmes. Cette intervention revient sur les principales applications industrielles de la génération automatique de textes, les contraintes associées et les techniques mises en œuvre, en particulier par la société Yseop.
Références :
- Brown, T & al (2020) Language Models are Few-Shot Learners. ArXiv prepub - https://arxiv.org/abs/2005.14165
- Rebuffel, Clement and Soulier, Laure and Scoutheeten, Geoffrey and Gallinari, Patrick. 2020. PARENTing via Model-Agnostic Reinforcement Learning to Correct Pathological Behaviors in Data-to-Text Generation. In Proceedings of the 13th International Conference on Natural Language Generation
- Claire Gardent, Anastasia Shimorina, Shashi Narayan, and Laura Perez-Beltrachini. 2017. The WebNLG challenge: Generating text from RDF data. In Pro- ceedings of the 10th International Conference on Natural Language Generation, pages 124–133.
- Reiter, Ehud and Belz, Nadja. An Investigation into the Validity of Some Metrics for Automatically Evaluating Natural Language Generation Systems. 2009. In Journal of Computational Linguistics
- Laurence Danlos, Aleksandre Maskharashvili, Sylvain Pogodalla. An ACG View on G-TAG and Its g- Derivation. Logical Aspects of Computational Linguistics: 8th International Conference, LACL 2014, Toulouse, France, June 18-20, 2014. Proceedings, Jun 2014, Toulouse, France. pp.70-82, 10.1007/978- 3-662-43742-1_6 . hal-00999633
- de Groote, Ph. 2001. Towards Abstract Categorial Grammars. In Association for Computational Linguistics, 39th Annual Meeting and 10th Conference of the European Chapter, Proceedings of the Conference, pages 148–155.
Date et heure : Le 11 mars 2021 de 14h00 à 15h00
Lieu : Afin de respecter les mesures sanitaires en vigueur, la conférence se tiendra en visioconférence. Elle est accessible via la lien suivant : Conférence Teams - Hugues de Mazancourt. Si vous rencontrez des problèmes pour vous connecter, n'hésitez pas à contacter Erika Lombart (erika.lombart@uclouvain.be).
29 avril 2021 — Rémi Cardon
Simplification automatique de textes spécialisés et techniques
Rémi Cardon, STL - CNRS / Université de Lille
Abstract :
La simplification automatique de textes est un domaine du traitement automatique des langues (TAL) qui vise à traiter des textes difficiles à lire pour un public donné de façon à les rendre plus accessibles. Notre objectif consiste à simplifier automatiquement les textes médicaux et de santé. Nous présentons l’ensemble de notre travail sur cette question, qui va de la collecte et analyse de corpus jusqu’aux expériences en simplification automatique. Nous commençons par la collecte d’un corpus comparable de textes médicaux. Ce corpus est constitué de couples de documents qui traitent du même sujet : l’un s’adressant à un public spécialiste et l’autre à un public néophyte. Le corpus contient trois types de textes : des informations sur les médicaments, des revues systématiques de littérature médicale et des articles encyclopédiques. Une fois les documents collectés, nous annotons un sous-ensemble de ces documents et analysons les transformations linguistiques qui y sont mises en œuvre lors de la simplification.À partir du corpus comparable, nous mettons en place une méthode pour en extraire un corpus parallèle, c’est-à-dire un corpus comprenant des couples de phrases qui ont le même sens mais diffèrent par leur degré de difficulté. Ce type de corpus représente le matériau principal pour les méthodes de simplification automatique. Notre méthode d’extraction de phrases parallèles comporte deux étapes : (1) le préfiltrage de paires de phrases candidates à l’alignement selon des heuristiques syntaxiques et (2) la classification binaire permettant de distinguer les phrases en relation de simplification. Nous évaluons différents classifieurs ainsi que l’influence du déséquilibre des données sur les performances. Afin de valoriser ce corpus parallèle, nous créons également un corpus de paires de phrases annotées selon leur similarité sémantique, avec des scores allant de 0 (sémantique indépendante) à 5 (même sémantique). Les deux corpus sont disponibles pour la recherche. Enfin, nous présentons une série d’expériences en simplification automatique de textes médicaux en français. Ainsi, nous mettons à l’œuvre une méthode neuronale issue de la traduction automatique. Nous utilisons plusieurs ressources : le corpus parallèle médical construit par nous, le corpus parallèle de langue générale automatiquement traduit par nous de l’anglais vers le français ainsi qu’un lexique qui apparie des termes médicaux avec des termes ou paraphrases accessibles au grand public. Nous décrivons le protocole expérimental et menons une évaluation en deux volets, quantitatif et qualitatif. Les résultats sont comparables à l’état de l’art de la simplification en langue générale et montrent que les simplifications produites peuvent être exploitées dans le cadre d’une tâche de simplification assistée par ordinateur.
Date et heure : Le 29 avril 2021 de 14h00 à 15h00
Lieu : Afin de respecter les mesures sanitaires en vigueur, la conférence se tiendra en visioconférence. Elle est accessible au lien suivant : Conférence Teams - Rémi Cardon.
06 mai 2021 — Marie-Catherine de Marneffe
Identifying speaker commitment for natural language understanding
Marie-Catherine de Marneffe - Professeure associée au département de linguistique à The Ohio State University, CENTAL
Abstract:
When we communicate, we infer a lot beyond the literal meaning of the words we hear or read. In particular, our understanding of an utterance depends on assessing the extent to which the speaker stands by the event she describes. An unadorned declarative like “The cancer has spread” conveys firm speaker commitment of the cancer having spread, whereas “There are some indicators that the cancer has spread” imbues the claim with uncertainty. It is not only the absence vs. presence of embedding material th at determines whether or not a speaker is committed to the event described: from (1) we will infer that the speaker is committed to there being war, whereas in (2) we will infer the speaker is committed to relocating species not being a panacea, even though the clauses that describe the events in (1) and (2) are both embedded under “(s)he doesn’t believe”.
(1) The problem, I’m afraid, with my colleague here, he really doesn’t believe that it’s war.
(2) Transplanting an ecosystem can be risky, as history shows. Hellmann doesn’t believe that relocating species threatened by climate change is a panacea.
In this talk, I will first illustrate how looking at pragmatic information of what speakers are committed to can improve NLP applications. Previous work has tried to predict the outcome of contests (such as the Oscars or elections) from tweets. I will show that by distinguishing tweets that convey firm speaker commitment toward a given outcome (e.g., “Dunkirk will win Best Picture in 2018”) from ones that only suggest the outcome (e.g., “Dunkirk might have a shot at the 2018 Oscars”) or tweets that convey the negation of the event (“Dunkirk is good but not academy level good for the Oscars”), we can outperform previous methods. Second, I will evaluate current models of speaker commitment, using the CommitmentBank, a dataset of naturally occurring discourses developed to deepen our understanding of the factors at play in identifying speaker commitment. I will show that current models fail on items that necessitate pragmatic knowledge, highlighting directions for improvement.
Date et heure : Le 06 mai 2021 de 14h00 à 15h00
Lieu : Afin de respecter les mesures sanitaires en vigueur, la conférence se tiendra en visioconférence. Elle est accessible via la lien suivant : Marie-Catherine de Marneffe - 06 mai 2021. Si vous rencontrez des problèmes pour vous connecter, n'hésitez pas à contacter Erika Lombart (erika.lombart@uclouvain.be).
Les dias sont disponibles dans la conversation du canal Teams de la conférence