Séminaires du CENTAL (archives 2018-2019)

Organisation 2018-19

Anaïs Tack
Violeta Gutierrez Figueroa

Calendrier 2019-20

Premier quadrimestre

Multiword expression identification: how far have we got?

Carlos Ramisch
LIS - Aix-Marseille Université

I will talk about multiword expression identification, that is, given an input text, we try to automatically identify (and categorise) the tokens belonging to multiword expressions in it. This task can be extremely useful to avoid errors in parsing and semantic applications that tend to process multiword expressions compositionally, word by word, whereas they must be treated as a unit. I will present an overview of the PARSEME corpora and shared task focusing on verbal expressions. Then, I will talk about two systems developed in our group for this task: an old-fashioned rule-based system submitted to the DiMSUM shared task, and a more trendy one, based on recurrent neural networks and submitted to the PARSEME shared task 2018. I will conclude my talk with a some philosophical digression on whether multiword expressions are nowadays still a pain in the neck, or if deep learning transformed their identification into a piece of cake.

diapositives : ici

Vendredi 19 octobre 2018 ∙ 14h-15h ∙

Collège Érasme c.142

26.10 — Pascal Amsili — Autour de la résolution automatique de la coréférence : définition de la tâche, modélisation cognitive, schémas Winograd.

Pascal Amsili
LLF Lattice (Université Paris-Diderot)

Je vais présenter dans cet exposé plusieurs travaux récents menés dans notre équipe autour de la résolution automatique de la coréférence. Nous commencerons par revenir sur la tâche de résolution des coréférences telle qu'elle est définie en TAL. Sur la base des travaux de Master de Quentin Gliosca, nous montrerons qu'une nouvelle définition de cette tâche, basée sur les têtes et non sur les empans, peut se révéler plus utile à la communauté, plus facile à évaluer, et offrir de meilleures performances.

Nous parlerons ensuite de l'utilisation de modèles computationnels de résolution des coréférences pour simuler de façon cognitivement plausible le comportement humain sur cette tâche. Les travaux de thèse d'Olga Seminck montrent que si c'est une tâche difficile, cela peut se révéler utile à la fois pour les psycholinguistes qui élaborent des modèles et pour les chercheurs en TAL qui cherchent de nouvelles sources d'inspiration.
Selon le temps, nous évoquerons aussi des travaux que nous menés, en collaboration avec Olga Seminck et de nombreux stagiaires, sur les schémas Winograd. Il s'agit de phrases comportant un pronom dont l'antécédent est évident pour la quasi-totalité des humains, mais très difficile à résoudre pour un système automatique. Nous rapporterons diverses expériences statistiques et psycholinguistiques que nous avons menées sur la collection française de schémas Winograd que nous avons élaborée.

Slides : ici

Vendredi 26 octobre 2018 ∙ 14h-15h

Collège Érasme c.142

09.11 — Yves Peirsman — Natural Language Processing in Industry: State of the Art and Remaining Challenges

Yves Peirsman
NLP Town (www.nlp.town)

Natural Language Processing is going through exciting times. After the breakthrough of Deep Learning, new advances in transfer learning and multi-task learning open up many opportunities for the wide application of language technology. Still, it can be surprisingly challenging to apply NLP successfully in a business context. In this talk, I will give an overview of some successful NLP applications in various sectors, and identify the main challenges for the wide adoption of NLP in industry.

Slides : ici

Vendredi 9 novembre 2018 ∙ 14h-15h

Collège Érasme c.142

30.11 — Xavier Tannier — Analyse automatique de comptes-rendus hospitaliers : approches supervisées, non supervisées, hybrides

Xavier Tannier
Inserm LIMICS (Université Paris-Sorbonne)

Le dossier électronique des patients représente la connaissance engrangée sur le patient dans un hôpital. Si une partie importante de cette connaissance tend à être représentée de façon structurée et compréhensible facilement par un système informatique, l’essentiel reste rédigé en langue naturelle par des spécialistes préoccupés par la communication d’information à d’autres spécialistes, et non à des machines. Cette information est néanmoins précieuse, et les techniques d'extraction d'information peuvent apporter de la structure là où elle n'existe pas initialement.
Nous aborderons trois tâches importantes de l'analyse de textes cliniques : l'extraction et la normalisation de concepts, l'extraction de relations temporelles, et la détection de phénotypes. Nous présenterons des approches variées, qu'elles soient supervisées ou non supervisées, statistiques ou à base de règles, en insistant sur les spécificités de ce domaine.

Slides : ici

Vendredi 30 novembre 2018 ∙ 14h-15h

Collège Érasme c.142

Deuxième quadrimestre

08.02 — Rodrigo Souza Wilkens — Smart and Adaptative Language Learning Applications

Rodrigo Souza Wilkens
CENTAL, UCLouvain

This presentation will address the results of the “Smart and Adaptative Language Learning Applications” (SMALLA) project, which addressed the research and development of Natural Language Processing (NLP) tools, aiming to aid learners of English as foreign language, by allowing they to explore their own interests during the learning activities. In this presentation, I will start talking about the machine learning (ML) modeling in this project, in specific the classification of the expected level of a text according to the Common European Framework of Reference for Languages (CEFR). On that, I will explore the impact of the text representation, the corpus size, and the machine learning algorithms in the classification task. Then, moving to the NLP application, I will present how we used the ML to remove noise data in the corpus and to identify learners preferences in terms of grammatical structures across different learning stages. Finishing the presentation, I will talk about the application of these approaches combined with Information Retrieval techniques, aiming to select texts taking into account its language level as well as its content.

References:

Wilkens, R., Zilio, L., & Fairon, C. (2018). Document Ranking Applied to Second Language Learning. In European Conference on Information Retrieval (pp. 618-624). Springer.

Wilkens, R., Zilio, L., & Fairon, C. (2018). SW4ALL: a CEFR Classified and Aligned Corpus for Language Learning. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC-2018).

Zilio, L., Wilkens, R., & Fairon, C. (2018). Investigating Productive and Receptive Knowledge: A Profile for Second Language Learning. In Proceedings of the 27th International Conference on Computational Linguistics (COLING-2018) (pp. 3467-3478).

Vendredi 8 février 2019 · 14h00-15h00

Collège Erasme c.142

22.03 — David Fredrich — Proposition d'un système d'aide à la décision dans le domaine juridique

David Fredrich
sprl LegalTech4you ∙ HELMo

Les réglementations et leur interprétation par les juges, avocats, fonctionnaires et autres juristes deviennent de plus en plus complexes et les justiciables comme les opérateurs économiques attendent des réponses rapides au meilleur coût possible. Aujourd'hui, les clients des conseillers juridiques ne veulent plus payer pour des tâches de recherches documentaires. Dans ce contexte la technologie peut réellement aider à trouver les arguments décisifs et optimiser les chances de succès d'un dossier juridique, tout en gagnant beaucoup de temps ; un temps précieux pour fournir des conseils plus ciblés aux clients. Les technologies de machine learning et de traitement automatique du langage naturel sont aujourd’hui suffisamment matures pour soutenir des activités modélisées dans le respect de la théorie du droit et d’une méthodologie juridique pragmatique. LegalTech4you propose des solutions d'aide à la décision qui combine des technologies d'intelligence artificielle et d'intelligence collective à l'expertise du juriste.

Référence : www.legaltech4you.com

Vendredi 22 mars 2019 ∙ 10h-11h

Collège Dupriez d.144

26.04 — Benoît Sagot — Représentation et exploitation des informations lexicales : la place des lexiques

Benoît Sagot
ALMAnaCH research team (Inria/ÉPHÉ)

Les ressources lexicales sont une des sources d’informations sur lesquelles peuvent s’appuyer les modèles et les outils de traitement automatique des langues et les travaux en linguistique computationnelle. La conception, le développement et l’exploitation de ces ressources constituent donc un enjeu important.
Nous discuterons tout d’abord brièvement des notions de phrase, de mot, de lexique, et d’unité lexicale et notamment des obstacles que l’on rencontre lorsque l’on tente de définir formellement ces notions. Nous distinguerons alors les deux approches principales qui permettent de représenter les unités lexicales et leurs propriétés linguistiques : les lexiques et les représentations vectorielles (word embeddings). Après avoir indiqué de façon schématique les avantages et les inconvénients respectifs de ces deux approches, nous nous focaliserons sur les lexiques. Nous mettrons notamment en avant certaines ressources librement disponibles pour le français ou pour un ensemble de langues conséquent. Nous nous attarderons successivement sur les notions de lexique morphologique, de lexique syntaxique et de lexique sémantique (de type wordnet), tout en mentionnant d’autres types de lexiques.
Nous terminerons par une comparaison sur une tâche précise de la contribution respective de l’approche par lexiques et de l’approche par représentations vectorielles. Nous montrerons ainsi, sur la tâche d’étiquetage en parties du discours, que les informations lexicales permettent d’améliorer les résultats, et que les deux approches apportent des informations complémentaires.

Vendredi 26 avril 2019 ∙ 14h00-15h00

Collège Dupriez e.221

05.04 — Nùria Gala — Outils et méthodes pour l'aide à la lecture : vers une simplification automatique de textes pour un meilleur décodage et compréhension

Núria Gala
Aix Marseille Université Laboratoire Parole et Langage, FR

La lecture est une activité fondamentale parce que l’écrit demeure prédominant dans notre société. Or, les compétences en lecture et compréhension des élèves francophones apprentis lecteurs (que ce soit en France ou en Belgique) se situent tout en bas du classement européen d’après l’évaluation internationale PIRLS (2016). Quels peuvent être les apports du traitement automatique des langues dans ce domaine ? Dans ce séminaire, nous proposerons quelques outils et méthodes issus d’un travail collaboratif et multidisciplinaire dans le cadre du projet ANR Alector (https://alectorsite.wordpress.com/). Notamment, nous présenterons les résultats des analyses issues de tests de lecture, dans des écoles et dans des cabinets d’orthophonistes, qui nous ont permis de modéliser un outil d’identification et de substitution de mots difficiles à lire par des enfants en difficulté.

Slides : ici

Vendredi 5 avril 2019 ∙ 11h-12h ∙

Collège Dupriez d.144

Menu

cental | Louvain-la-Neuve

Organisation 2018-19

Calendrier 2019-20

Premier quadrimestre

Multiword expression identification: how far have we got?

26.10 — Pascal Amsili — Autour de la résolution automatique de la coréférence : définition de la tâche, modélisation cognitive, schémas Winograd.

09.11 — Yves Peirsman — Natural Language Processing in Industry: State of the Art and Remaining Challenges

30.11 — Xavier Tannier — Analyse automatique de comptes-rendus hospitaliers : approches supervisées, non supervisées, hybrides

Deuxième quadrimestre

22.03 — David Fredrich — Proposition d'un système d'aide à la décision dans le domaine juridique

26.04 — Benoît Sagot — Représentation et exploitation des informations lexicales : la place des lexiques

05.04 — Nùria Gala — Outils et méthodes pour l'aide à la lecture : vers une simplification automatique de textes pour un meilleur décodage et compréhension