Séminaires du CENTAL (Archives 2011-2012)

PROGRAMME 2011-2012

- Vendredi 30 spetembre 2011 de 11h à 12h15
Cédrick Fairon, CENTAL (UCL)
Méthodes linguistiques pour le traitement de l'information médicale

Résumé :
Les systèmes informatiques de gestion des dossiers médicaux (Electronic Health Record ou Dossier médical personnel) sont de plus en plus largement utilisés dans la profession médicale. Aux USA, leur usage est actuellement promu par des actions gouvernementales très ambitieuses. Dans ces systèmes, une grande partie de l'information stockée est textuelle et "non structurée" : il s'agit de notes de suivi, de comptes rendus d'hospitalisation, de courriers, de résultats de laboratoire, etc. Dès que le volume d'information croit, il devient impossible pour le médecin de parcourir l'ensemble de ces documents et d'avoir une vue synthétique de l'information qu'ils contiennent.
Pourtant, on comprend aisément que la qualité de l'accès à l'information est primordiale pour assurer la qualité des soins et la sécurité des patients.
Après avoir présenté cette réalité et les enjeux actuels, nous présenterons quelques expériences réalisées en collaboration avec le Center for Biomedical Informatics Research à l'Université de Stanford pour traiter l'information issue de dossiers médicaux à l'aide de techniques de traitement automatique du langage. En particulier, nous présenterons les expériences réalisées par le "Shah Lab" en vue de détecter de manière précoce des effets secondaires (encore inconnus) de médicaments.

Affiche

- Vendredi 14 octobre 2011 de 11h à 12h15
Alexander Panchenko, CENTAL (UCL) & BMSTU
Knowledge-, Corpus-, and Web-based Similarity Measures for Semantic Relations Extraction

Résumé :
One approach for semantic relations extraction is based on the lexico-syntactic patterns which are constructed either manually (Hearst, 1992) or semi-automatically (Snow et al., 2004). The alternative approach, adopted in this research, is unsupervised (see e.g. Lin (1998a) or Sahlgren (2006)). It relies on a similarity measure between lexical units.
Similarity measures differ both in kinds of information they use and in the ways how this information is transformed into a similarity score. We would like to answer on two questions: “What metric is most suitable for the unsupervised relation extraction?”, and “Does various metrics capture the same semantic relations?”. We evaluate the available similarity measures within the context of semantic relation extraction. We compare knowledge-based, corpus-based, and web-based measures w.r.t. the BLESS dataset (Baroni and Lenci, 2011). Our results show that existing similarity measures provide significantly different results, both in general performances and in relation distributions.
Finally, we discuss ways towards developing an efficient information fusion method combining similarities coming from different measures – the ultimate goal of this research.

Affiche, présentation

- Vendredi 28 octobre 2011 de 11h à 12h15
Ismaïl El Maarouf, Université de Bretagne Sud
Modélisation linguistique du contexte pour l'extraction d'information

Résumé :
L'accès au contenu des documents est un des domaines de recherche actuels en Traitement Automatique des Langues, qui s'applique dans de nombreux contextes. Théoriquement, extraire une information pertinente dans un texte suppose une représentation sémantique de ce texte, c'est-à-dire des unités dont il est composé et des relations qui les lient. Étant donné qu'une recherche d'information s'appuie rarement sur une unité, l'accès au contenu implique souvent une analyse de l'environnement linguistique (co-texte), ce que nous définissons comme l'extraction de relations sémantiques. Deux méthodes majeures sont employées pour identifier des relations dans un texte, chacune ayant ses forces et ses limites : les patrons lexico-syntaxiques et les méthodes par fenêtre. Ces méthodes peuvent s'appuyer sur une représentation linguistique plus ou moins riche du co-texte, et sur des ressources linguistiques multiples.
Après avoir indiqué quelques repères sur l'extraction sémantique en corpus, nous nous concentrerons sur les problèmes qui se posent aux systèmes d'accès au contenu en organisant notre présentation sur trois axes : la Syntaxe, le Discours et le Genre.
Nous pourrons alors mieux situer les pistes de recherche que nous privilégions, les méthodes et systèmes proposés.

Affiche, présentation

- Vendredi 4 novembre 2011 de 11h à 12h15
Sébastien Paumier, LIGM Université de Paris-Est
Unitex : les nouveautés de la 3.0 beta

Résumé :
Unitex évolue rapidement, mais dans sa version instable. De ce fait, beaucoup d'utilisateurs ignorent les modications apportées tant qu'une nouvelle version stable n'est pas sortie. Du fait d'un projet de recherche impliquant des extensions d'Unitex, de très nombreuses fonctionnalités ont vu le jour, avec une forte orientation industrielle. Nous proposerons un tour d'horizon de toutes ces nouvelles possibilités, qui englobent aussi bien des aspects purement ergonomiques, que des extensions des possibilités du logiciel, voire des améliorations substantielles des performances de celui-ci.

Affiche, présentation

- Vendredi 18 novembre 2011 de 11h à 12h15
Béatrice Arnulphy, LIMSI (Université Paris-Sud XI)
Reconnaissance de désignations nominales d'événements

Résumé :
La notion d'événement a été très étudiée en histoire, philosophie ou journalisme. En linguistique, plusieurs définitions, ainsi que des typologies d'événements, ont été proposées [Lecolle, 2009], celles-ci étant souvent peu applicables dans une démarche de TAL. Si les sciences humaines étudient particulièrement les noms d'événement, en informatique linguistique en revanche, les études se sont attelées aux événements de type verbal, pour des raisons de complexité de la tâche, c'est le cas de TimeML [Pustejovsky et al., 2003].

Nos propres travaux en TAL se préoccupent des événements de type nominal, avec pour objectif leur reconnaissance et leur extraction automatique.
Nous nous intéressons aux entités qui peuvent être constituées à partir de :
- noms morphologiquement apparentés à des verbes d'action tels que fête (apparenté à fêter);
- déclencheurs événementiels, des éléments qui évoquent des événements de façon non ambiguë comme festival dans Festival du film de Berlin ;
- mots qui prennent un caractère événementiel évident en contexte, c'est le cas par exemple du mot polysémique salon dans La cinquième édition du Salon de l'éducation ou de noms de lieu comme Tchernobyl, désignant, par métonymie, l'incident qui s'y est produit (Personne ne veut d'un nouveau Tchernobyl), ou encore de dates comme Mai 68 ou 11 septembre.
Les désignations nominales d'événement qui nous intéressent sont les groupes nominaux dont la tête du syntagme porte l'une ou l'autre de ces propriétés.

Nous proposons de présenter un tour d'horizon des travaux que nous avons menés jusqu'à présent : notre définition et notre typologie des événements, notre réflexion sur la nomination des événements qui ont mené à notre guide d'annotation et à un corpus annoté manuellement, mais aussi notre méthode d'extraction d'un lexique pondéré de noms d'événements (sur la base d'indices contextuels linguistiques) et ses résultats sur l'anglais et le français.

Affiche, présentation

- Vendredi 2 décembre 2011 de 11h à 12h15
Sebastian Pado, Université d'Heidelberg
Cross-lingual knowledge transfer

Résumé :
Most large-coverage language technology resources are only available for a small number of language (typically starting with English). This is particularly true in semantics. My task reports current work on bilingual vector space models and describes how such models can be used for cross-lingual knowledge transfer, using the prediction of plausibility judgments as an example application. I will analyse in particular the relationship between the properties of the semantic phenomena that are to be modeled and the ideal parametrization of the bilingual vector space.

Affiche, présentation

- Vendredi 16 décembre 2011 de 11h à 12h15
Véronique Hoste, Université de Gand
Bypassing the need for annotated data: Cross-lingual word sense disambiguation

Résumé :
Cross-Lingual Word sense disambiguation (WSD) consists in selecting the correct translation of an ambiguous word in a given context. In this talk we present a set of experiments for a classification-based WSD system that uses evidence from multiple languages to define a translation label for an ambiguous target word in one of the five supported languages (viz. Italian, Spanish, French, Dutch and German). Instead of using a predefined monolingual sense-inventory such as WordNet, we use a language-independent framework and build up our sense inventory by means of the aligned translations from the parallel corpus Europarl. The information that is used to train and test our classifier contains the well-known WSD local context features of the English input sentences, as well as translation features from the other languages. Our results show that the multilingual approach outperforms the classification experiments that merely take into account the more traditional monolingual WSD features.
The viability of this approach is investigated in two applications: machine translation and cross-lingual link discovery.

Affiche

- Vendredi 17 février 2012 de 11h à 12h15
Mathieu Roche (http://www.lirmm.fr/~mroche/)
Les descripteurs linguistiques en fouille de textes. Application à la fouille de données d'opinion

Résumé :
Les masses de données textuelles aujourd'hui disponibles engendrent un problème difficile lié à leur traitement automatique. Dans ce cadre, des méthodes de Fouille de Textes (FT) et de Traitement Automatique du Langage (TAL) peuvent, en partie, répondre à une telle problématique.

Après une présentation des méthodes de traitement des descripteurs en eux-mêmes, ces derniers seront étudiés en contexte, c'est-à-dire en corpus. L'identification des descripteurs est souvent difficile à partir de corpus bruités et à faible contenu textuel sur lesquels nous concentrons nos efforts (par exemple, corpus issus du Web 2.0 ou du traitement OCR). Outre les mots considérés comme des descripteurs linguistiques pertinents en FT, nous nous sommes également intéressés à l'étude des syntagmes complexes à partir de corpus classiques puis d'une terminologie classique à partir de corpus complexes (par exemple, données logs ou corpus en français médiéval).

Dans cet exposé, une présentation d'un processus de fouille de données d'opinion sera présenté. Celui-ci a pour but de construire un dictionnaire lié aux opinions/sentiments selon une thématique donnée. Les perspectives à ce travail se concentreront sur l'extraction de descripteurs liés aux nouveaux modes de communication (tweets par exemple). Ces derniers seront associés à de nouvelles représentations sous forme d'entrepôts de données textuelles.

Présentation

- Vendredi 2 mars 2012 de 11h à 12h15
Richard Beaufort, Université catholique de Louvain (CENTAL)
PlatON: Plateforme d’aide à l’apprentissage de l’Orthographe sur le Net. Une combinaison utile de l'ALAO/ELAO et du TAL

Résumé :

La plateforme PLATON s’inscrit dans le cadre général de l’apprentissage et de l’enseignement des langues assistés par ordinateur (ALAO/ELAO). Dédiée à l’amélioration de la maîtrise de l’orthographe, cette plateforme s’adresse aussi bien à des apprenants natifs qu’à des allophones, pour autant que ceux-ci présentent déjà un niveau de maîtrise avancé de la langue à l’oral et à l’écrit (C1/C2 du Cadre Européen de Référence). Sur ce point, PLATON se distingue des autres plateformes d’ALAO/ELAO, classiquement dédiées aux langues secondes.

PLATON est une plateforme en ligne, accessible aux enseignants et à leurs apprenants. Dans l’ensemble, le développement de cette plateforme tâche de répondre aux différents besoins relevés par les acteurs de l’ALAO/ELAO. L’un d’eux, un véritable défi, a particulièrement retenu notre attention : dépasser les exercices classiques que sont le texte à trous et le choix multiple, qui limitent considérablement l’éventail des connaissances testées. Pour ce faire, l’idée est de proposer des exercices de type semi-ouvert, qui évitent de signaler trop explicitement le lieu de la difficulté et stimulent la spontanéité des réponses, tout en maintenant l’éventail des variations possibles dans les limites d’un ensemble gérable automatiquement.

La dictée, exercice de type semi-ouvert du fait de la présence d’un original qui limite les variations possibles, est l’exercice central de la plateforme, qui en gère automatiquement tous les aspects :
1) sa vocalisation (synthèse de la parole ou enregistrement) lors de son ajout par l’enseignant,
2) les différentes étapes de sa réalisation par l’apprenant (écoute, copie, relecture),
3) bien sûr, sa correction. La phase de correction propose un diagnostic automatique des erreurs, basé sur des méthodes d’alignement et d’analyse linguistique automatique.

Actuellement, la plateforme se limite à cet exercice: un enseignant ajoute des dictées, réparties en cours; un étudiant réalise les dictées du cours auquel il est inscrit. Tous deux ont accès aux corrigés des copies. A terme, la plateforme proposera d'autres exercices (textes à trous, jeu des 7 erreurs) et permettra aux enseignants d'ajouter la matière de leur enseignement.

Dans le cadre de la conférence, nous proposons de commencer par présenter la plateforme: du côté de l’enseignant, nous nous focaliserons sur l’ajout d’une nouvelle dictée; du côté de l’apprenant, nous nous concentrerons sur la réalisation d’une dictée complète et analyserons le résultat de la correction. Ensuite, nous présenterons l'algorithme de correction (alignement, détection des erreurs, génération du diagnostic) qui a autorisé l'automatisation complète de l'exercice de dictée.

Affiche

- Vendredi 16 mars 2012 de 11h à 12h15
Mohamed Ben Haddou (Société Mentis consulting)
Information extraction from texts

Présentation

- Vendredi 30 mars 2012 de 11h à 12h15
Matthieu Vernier (Dictanova)
Analyse à granularité fine des opinions : identifier et caractériser les stéréotypes culturels d'opinion

Résumé :
Avec l'essor du web social, les internautes sont davantage enclins à partager et affirmer leurs opinions. Devant l'ampleur du phénomène, les opinions exprimées sur internet sont devenues des données stratégiques qu'il faut pouvoir suivre en temps réel et caractériser finement.
Par opposition aux approches par catégorisation de documents, l'analyse à granularité fine des opinions est un axe de recherche plus récent qui vise à :

délimiter les passages d'opinions d'un texte ;
caractériser leurs traits sémantiques (Quel est le degré d'engagement du locuteur ? À quel champ d'expérience subjective renvoie t-il ? Quelle est la polarité axiologique de l'opinion ?) ;
identifier précisément leur cible parmi les différents sujets abordés dans un texte.

Au cœur des approches à granularité fine, une problématique classique consiste à construire manuellement ou automatiquement des ressources lexicales pour couvrir l'ensemble des mots ou des expressions utilisés pour exprimer une opinion. Si la construction de telles ressources est une première étape nécessaire, nous souhaitons mettre en avant l'enjeu des stéréotypes culturels activés pour exprimer une opinion. Ceux-ci ne sont en général pas présent dans les ressources existantes alors qu'ils représentent une partie importante des opinions rencontrées lors d'analyses réelles. Par exemple, « être un goaleador » est un stéréotype d'opinion positif dans le contexte sportif, « avoir un strabisme » ou « être une cruche » sont des stéreotypes négatifs dans le contexte d'une élection de miss.
Nous illustrons les problématiques exposées dans cette présentation via des analyses réelles sur les opinions exprimées sur Internet durant l'élection de Miss France 2012, sur une banque et une enseigne de vente de vêtements. Nous montrerons en quoi les stéréotypes d'opinions peuvent être spécifiques à un contexte thématique, à une communauté de locuteurs ou à une période temporelle donnée et présenterons nos pistes de réflexion pour les identifier et les caractériser automatiquement.

Affiche

- Vendredi 20 avril 2012 de 11h à 12h15
Antonio Balvet (Université Lille 3)
Le projet Nomage: description en corpus des propriétés aspectuelles des noms déverbaux

Résumé:
Dans quelle mesure des noms morphologiquement liés à des verbes, tels que construction (=> construire), bombardement (=> bombarder), abattage (=> abattre), ou aérateur (=> aérer) héritent-ils des propriétés syntaxiques, sémantiques ou encore aspectuelles de la forme verbale? Le passage au domaine nominal apporte-t-il des propriétés spécifiques? Comment renseigner en contexte des propriétés sémantiques ou aspectuelles fines, telles que: nom massif/comptable, événement, état?

C'est pour tenter de répondre à ces questions que le projet jeune chercheur Nomage a été lancé, grâce au soutien financier de l'ANR. Ce projet a rassemblé des sémanticiens, syntacticiens et morphologues "traditionnels", ainsi que des linguistes de corpus et spécialistes du TAL. Dans cette étude, à l'interface entre les domaines évoqués précédemment, nous avons abordé la description des noms déverbaux tels qu'ils apparaissent dans un corpus de référence, le French Treebank, selon deux points de vue complémentaires:
- un point de vue "corpus-based", dans lequel nous avons cherché à confronter les attentes théoriques au comportement effectif des unités lexicales;
- un point de vue "corpus-driven", dans lequel nous avons cherché à induire des propriétés communes aux différents noms étudiés, directement à partir de leurs propriétés distributionnelles et de leur compatibilité avec une batterie de tests linguistiques.

Dans cette présentation, nous nous attacherons tant aux aspects méthodologiques (choix du corpus, définition d'une méthodologie d'annotation sémantique, outils d'annotation) que théoriques (rôle de la structure argumentale, lien avec des propriétés sémantiques et aspectuelles). Nous présenterons quelques résultats préliminaires, basés sur les annotations en corpus réalisées au cours du projet. Enfin, nous présenterons pour la toute première fois la base de données Nomage et son interface de consultation. Dans la mesure du possible, cette présentation se veut interactive: le public est donc invité à se munir d'un ordinateur portable.
Les personnes intéressées peuvent d'ores et déjà consulter la base de données à l'adresse: http://nomage.recherche.univ-lille3.fr/nomage/. Le projet lui-même est présenté dans son ensemble à l'adresse http://nomage.recherche.univ-lille3.fr/.

Présentation

- Vendredi 11 mai 2012 de 11h à 12h15
Béatrice Lamiroy (Franitalco, KUL)
Expressions figées et francophonie

Résumé :
Le but de la communication est de présenter les résultats d’une recherche en cours devant aboutir à un dictionnaire en ligne des expressions verbales figées de la francophonie (cf. Lamiroy et al. 2010). Le projet, dont le point de départ a été les travaux de Maurice Gross sur le figement, a pour objet les expressions verbales figées de quatre communautés francophones, belge (B), française de France (F), québécoise (Q) et suisse (S). Voir résumé complet pour la suite.

Affiche