Séminaires du CENTAL (Archives 2012-2013)

PROGRAMME 2012-2013

Vendredi 9 novembre de 15h à 16h15
Marie-Francine Moens (LIIR, département d'informatique de la KUL)
Extracting Knowledge from Text: The Challenges of Machine Reading

Résumé :
The lecture will start with an overview of current accomplishments in machine reading of text with special attention to named entity recognition, coreference resolution, semantic role labeling, temporal information extraction, event extraction, and temporal and spatial relation extraction. We will pinpoint a number of challenges and discuss potential solutions that often rely on novel machine learning methods. The lecture will be illustrated with examples from the EU-FP7 project MUSE where we translate text into the knowledge representations used in a virtual world and automatically populate the virtual world with the events reported in the text.

Vendredi 23 novembre de 14h à 15h15
Piet Desmet – Maribel Montero Perez – Hans Paulussen (département de linguistique de la KUL)
Les corpus parallèles annotés au service de la linguistique. Le cas de DPC.

Résumé :
DPC (Dutch Parallel Corpus) est un corpus parallèle multilingue (néerlandais-français et néerlandais-anglais) de 10 millions de mots, enrichi d’annotations linguistiques et aligné au niveau de la phrase. Le projet DPC a été piloté conjointement par la KU Leuven KULAK et la HoGent dans le cadre du programme STEVIN de l’Union linguistique néerlandaise (Nederlandse Taalunie).

Les corpus parallèles alignés sont le matériau de base indispensable à un grand nombre d'applications, parmi lesquelles la traduction automatique, la traduction assistée par ordinateur, l'extraction d'information, l'extraction de terminologie multilingue et l'enseignement des langues assisté par ordinateur. Par ailleurs, des disciplines comme la linguistique descriptive et contrastive aussi bien que la traductologie profitent largement de l’emploi de tels corpus.

Dans cette présentation, nous offrirons d’abord un aperçu des principales caractéristiques du corpus DPC et des principes qui sous-tendent sa composition. Ensuite, nous présenterons les étapes décisives lors du traitement des matériaux textuels, à savoir la normalisation, la standardisation et l’enrichissement des textes. Par ailleurs, nous montrerons comment le corpus peut être consulté. Nous présenterons notre concordancier contrastif, qui est accessible comme interface web et qui permet à l'utilisateur d'exploiter le corpus à des fins de recherche, d'enseignement et de développement. Le corpus DPC est aussi disponible en format XML, ce qui rend les données facilement exploitables en utilisant des scripts de programmation. Finalement, nous illustrerons l’utilité d’un tel corpus pour la linguistique descriptive aussi bien que pour la linguistique appliquée à travers quelques exemples concrets.

Vendredi 30 novembre (14h)
Walter Daelemans (CLIPS, Université d'Anvers)
Author Profiling: extracting psychological and sociological properties of authors from text

Résumé:

This talk will be about the extraction of knowledge from text (language understanding), one of the central problems in Natural Language Processing. There are two well-known types of knowledge that you may want to learn from text: objective knowledge (the who, what, where, when type of information) and subjective knowledge (what does someone feel / think about something). After a brief introduction to the state of the art in these two areas, I will introduce a third type of information that can be extracted from text: profiles of the author of the text. This type of analysis (also called computational stylometry) detects information about the author of a text. Apart from identifying the author (authorship attribution), which has applications in forensic studies (who wrote this blackmail e-mail or suicide letter?) and literary scholarship, these techniques are also increasingly being used to extract information about psychological properties of the authors (mental health, personality type), and sociological properties (age, gender, education level, region). I will explain how these new research areas open up exciting new potential applications in areas as diverse as marketing, medical diagnosis, and monitoring social networks for illegal activities.

Vendredi 14 décembre de 9h30 à 10h30

Max De Wilde (Département des Sciences de l’Information et de la Communication, ULB)
L'extraction d'entités nommées : une opportunité pour le secteur culturel ?

Les institutions culturelles, que ce soient les bibliothèques, les centres d'archives ou les musées, disposent souvent de peu de moyens financiers pour valoriser leurs collections. Les métadonnées encodées par des générations de documentalistes restent ainsi peu exploitées, leur format non-structuré les rendant difficile à traiter de manière automatisée. Dans ce contexte, les techniques d'extraction d'information, et particulièrement la reconnaissance d'entités nommées, offrent de nouvelles perspectives pour les gestionnaires de collections, leur permettant d'enrichir le contenu sémantique de leur données à bas coût. Le projet Free Your Metadata vise à encourager les institutions culturelles à tirer parti de cette technologie, parmi d'autres, dans le but d'interconnecter leurs métadonnées existantes avec celles d'autres collections, s'intégrant ainsi dans la mouvance du linked data. Dans le cadre de ce séminaire, je présenterai les premiers résultats d'une étude de cas réalisée sur des données du Smithsonian Cooper-Hewitt National Design Museum à New York, ainsi que les futures possibilités et limites de cette approche pour le secteur culturel.

22 février 2013 de 12h45 à 14h
Serge Verlinde ( Institut interfacultaire des langues vivantes (ILT), K.U.Leuven)
Comment optimiser l’aide à la rédaction ?

La rédaction est une tâche complexe, certainement lorsqu’il s’agit de rédiger un texte en langue étrangère. Alors que, pendant très longtemps, le dictionnaire (de traduction de préférence) et la grammaire constituaient les seuls ouvrages de référence disponibles, il en est tout autrement aujourd’hui. Ainsi, nous disposons actuellement d’outils lexicographiques et de correcteurs très performants. Malheureusement, les premiers sont trop souvent ignorés du grand public et les seconds oublient un peu trop les apprenants et leurs problèmes spécifiques.

Le défi relevé par l’Interactive Language Toolbox est double : cette application en ligne offre un accès aussi convivial que possible aux meilleures ressources du Web, et ceci pour trois langues : l’anglais, le français et le néerlandais. D’autre part, elle propose aussi des modules de révision de texte qui n’ont pas l’ambition d’égaler les performances des correcteurs commerciaux, mais qui se veulent nettement plus didactiques avec, entre autres, une attention toute particulière portée aux erreurs de type lexical. Nous illustrerons plus en détail la démarche (expérimentale) suivie pour détecter et corriger de type d’erreurs.

Télécharger la présentation

1er mars 2013 de 13h à 14h
Entreprises EarlyTracks / Knowbel : Louis de Viron, Denis Lebailly
S³ : La sémantique au service des moteurs de recherche

Pour faire face à la grande quantité de données à laquelle elles sont confrontées, les entreprises font de plus en plus souvent appel à des solutions de gestion, structuration et interrogation de l'information.

Le moteur de recherche S³ (Semantic Search Solutions), développé au sein de l'entreprise Knowbel-Earlytracks, se situe dans une démarche d'accès efficace aux données textuelles. La solution que nous proposons se base sur un enrichissement automatique du texte par des informations sémantiques précises et structurées.

Durant ce séminaire, nous aurons l'occasion de présenter les technologies que nous développons pour organiser l'information et pour l'interroger d'une manière rapide et pertinente. Cette explication technique sera illustrée par des exemples concrets et des démonstrations de l'outil.

Télécharger la présentation

29 mars 2013 de 13h à 14h
Georges Antoniadis (Laboratoire de linguistique et didactique des langues étrangères et maternelles, Université Stendhal, Grenoble)
Quelles machines pour enseigner les langues ?

Les premières tentatives de création de « machines à enseigner » datent du début du 19e siècle. Elles visent « l’automatisation », partielle ou complète, de l’enseignement/apprentissage des langues, comme d’autres matières. L’avènement de l’informatique, et en particulier de la micro-informatique, a permis la création de machines pouvant apporter aux enseignants une aide appréciable pour leur tâche. Ces machines constituent actuellement la pièce centrale de tout système d’auto-formation, comme, souvent, de l’enseignement à distance.

Nous présentons durant ce séminaire l’évolution technologique de ces machines ainsi que leurs fondements théoriques, en se focalisant plus particulièrement sur les systèmes dédiés à l’enseignement/apprentissage des langues. Nous évoquerons leurs insuffisances et les causes pour nombre d’entre elles. Le recours aux procédures et résultats du traitement automatique des langues peut apporter solution à bon nombre d’insuffisances de ces systèmes. Nous examinerons l’apport du TAL, les limites de cet apport, ainsi que sa mise en œuvre appropriée.

Nous exposerons, enfin, les solutions proposées par le laboratoire LIDILEM et nous présenterons des aspects de la plateforme d’enseignement/apprentissage des langues MIRTO qui en est issue.

Mardi 16 avril 2013 de 12h45 à 14h
Sandrine Brognaux (doctorante ICTM, IL&C, Cental)
Séminaire organisé en partenariat avec l'ILC
Train&Align : un nouvel outil d'alignement phonétique automatique disponible en ligne

Plusieurs outils d'alignement phonétique automatique de corpus oraux sont actuellement disponibles. Ils utilisent, généralement, des modèles indépendants du locuteur pour aligner de nouveaux corpus. Leur désavantage est qu'ils couvrent ainsi un nombre très limité de langues et fournissent parfois un alignement de piètre qualité quand ils sont appliqués sur différents styles de parole. Ce séminaire présente un nouvel outil d'alignement phonétique automatique disponible en ligne: Train&Align. Sa spécificité est qu'il entraîne les modèles directement sur le corpus à aligner, ce qui le rend applicable à toutes les langues et tous les styles de parole. Des tests effectués sur trois corpus montrent qu'il produit un alignement de qualité comparable aux autres outils d'alignement. Il permet également d'optimiser certains paramètres d'entraînement. L'utilisation de modèles dépendant du contexte phonétique, par exemple, permet une amélioration d'environ 1.5% avec un seuil de tolérance de 20 ms. Une partie manuellement alignée du corpus peut également être utilisée afin d'améliorer la qualité des modèles. Les tests montrent que les taux d'alignement augmentent drastiquement, jusqu'à 20%, quand 30 secondes de corpus aligné manuellement sont utilisées.

26 avril 2013 de 14h à 15h15
Nuria Gala (LIF-CNRS, Aix-Marseille Université)
Lexique et ressources pour le lexique : au cœur des rapports entre la linguistique et le TAL ?

L'intérêt pour l'étude du lexique n'est pas nouveau. Au fil du temps, il a suscité différents questionnements dans des disciplines variées telles que la philologie, l'enseignement des langues, la lexicographie et, bien entendu, la lexicologie. Avec le développement du traitement automatique des langues (TAL) et l'accessibilité de grands volumes de données, on a vu apparaître un grand nombre de ressources linguistiques avec des finalités et des granularités diverses. Dans cet exposé, nous nous intéresserons à ces ressources et plus particulièrement aux lexiques en tant que recueils structurés d'unités lexicales. Nous les aborderons sous plusieurs aspects (création, enrichissement, évaluation) et nous en montrerons quelques exemples. Nous soutiendrons, pour conclure, que l'interaction entre la linguistique et le TAL passe de manière sine qua non par le(s) lexique(s) : ils sont, ainsi, au cœur des rapports entre ces deux disciplines.

24 mai 2013 de 11h à 12h00
Lependu Paea, (Stanford Center for Biomedical Informatics Research, Stanford University, Stanford, California, USA).
Pharmacovigilance Using Clinical Notes.

With increasing adoption of electronic health records (EHRs), there is an opportunity to use the free-text portion of EHRs for pharmacovigilance. We present novel methods that annotate the unstructured clinical notes and transform them into a deidentified patient-feature matrix encoded using medical terminologies. We demonstrate the use of the resulting high-throughput data for detecting drug-adverse event associations and adverse events associated with drug-drug interactions. We show that these methods flag adverse events early (in most cases before an official alert), allow filtering of spurious signals by adjusting for potential confounding, and compile prevalence information. We argue that analyzing large volumes of free-text clinical notes enables drug safety surveillance using a yet untapped data source. Such data mining can be used for hypothesis generation and for rapid analysis of suspected adverse event risk.

Reference:
Clinical Pharmacology & Therapeutics (2013); advance online publication 10 April 2013. doi:10.1038/clpt.2013.47.