Séminaires du CENTAL (Archives 2010-2011)

CENTAL Louvain-La-Neuve

PROGRAMME 2010-2011

 

- Vendredi 8 octobre 2010 de 11h à 12h15
Thomas Drugman, Faculté Polytechnique de Mons
Synthèse HMM: la nouvelle génération de voix artificielles

 

Résumé :
La synthèse de parole a pour but qu'une machine produise la lecture automatique d'un texte inconnu. Les critères de qualité sont le naturel et l'intelligibilité de la voix générée.
Après avoir parcouru un historique des méthodes existantes, nous présenterons la nouvelle génération de synthétiseurs: les synthétiseurs statistiques et paramétriques. Nous verrons quels sont les avantages et inconvénients de ceux-ci, et quels sont les champs de recherche actuels, notamment au sein du laboratoire TCTS de la Faculté Polytechnique de Mons.

Affiche, présentation


- Vendredi 22 octobre 2010 de 11h à 12h15
Richard Beaufort, CENTAL
De la collecte à la normalisation des SMS : linguistique de corpus et traitements automatiques par apprentissage

Résumé
La présentation de ce vendredi 22 octobre 2010 sera organisée comme suit. Premièrement, nous nous intéresserons à la manière dont les collectes de SMS ont été et sont encore réalisées dans le cadre des projets « Faites don de vos SMS à la Science » et « sms4science », dont l’objectif général est de rassembler des corpus SMS dans le plus grand nombre de langues possibles. Nous en profiterons pour nous arrêter quelques
instants sur certains constats linguistiques et statistiques obtenus par les chercheurs à partir de ces corpus. Deuxièmement, nous décrirons l’approche que nous avons implémentée pour aligner le corpus SMS et sa transcription au niveau du caractère, une étape nécessaire dans l’optique d’apprendre des modèles de normalisation à partir de ces corpus. Troisièmement, nous détaillerons le processus de normalisation mis en place et, dans un même élan, la manière dont les modèles de normalisation ont été appris. Cette présentation se conclura par une évaluation de l’approche, suivie d’une petite démonstration du système complet de synthèse de la parole à partir de SMS, text-it/voice-it, dont un prototype est déjà disponible pour les smartphones utilisant le système d’exploitation Android.
Résumé complet

Affiche, présentation


- Vendredi 5 novembre 2010 de 11h à 12h15
Tim Van de Cruys, INRIA (Paris)
Distributional Similarity and its Applications

Résumé
Distributional similarity is the process of calculating the semantic similarity between words by looking at the contexts in which those words appear. By comparing the context features of two particular words (such as the surrounding words, or the syntactic relations in which the words take part), we can automatically determine how semantically similar those words are. In the first part of this presentation, we will examine the different notions of context, and the different algorithms that might be used to calculate semantic similarity. We will particularly focus on dimensionality reduction algorithms, which allow us to reduce the abundance of overlapping features into a limited number of semantic dimensions. In the second part, we will look at a number of applications that exploit distributional similarity, viz. multi-word expression extraction, word sense discrimination, and the extraction of selectional preferences.

Affiche, présentation


Lundi 15 novembre 2010 de 14h à 15h30 au local More52
André Salem, Université Paris 3 (Sorbonne Nouvelle)
Introduction à la textométrie des corpus structurés, séries chronologiques, textométrie multilingue

Résumé:
L'application des méthodes de la textométrie à des corpus possédant une structuration forte
(séries textuelles chronologiques, dialogues, versions successives d'un même texte, etc.)
permet d'éclairer de manière efficace les résultats obtenus empiriquement.
Aujourd'hui, les méthodes textométriques permettent la comparaison de textes structurés
rédigés dans des langues différentes (traductions uniques ou multiples d'un même texte, etc.)
La prise en comptes de corpus multilingues permet, de plus, de renouveler la réflexion
sur la nature des unités textuelles mobilisables lors des analyse textométriques.

Affiche, présentation


- Vendredi 19 novembre 2010 de 11h à 12h15
José Vega, Wordbee (Luxembourg)
Les outils d’aide à la traduction dans un espace collaboratif

Résumé:
Grâce à au moins trois évolutions technologiques majeures de ces dernières années : les performances de l'internet, l’arrivée de l’ADSL avec des prix assez « démocratiques » et les nouvelles technologies Web (Web 2.0), il a été possible d'imaginer et de réaliser de nouveaux outils d'aide à la traduction entièrement orientés Web. 
Travailler dans un environnement Web révolutionne les modes de travail classiques dont le plus notable est la centralisation de l’information pour une gestion plus efficace des projets de traduction: partage global des ressources linguistiques ainsi que des outils linguistiques de pré-traduction, centralisation des documents source en tant que "pivot" pour des traductions multilingues, collaboration en temps réel entre les utilisateurs pendant les phases de traduction et enfin, la possibilité de créer des "communautés" d'utilisateurs pour réaliser des projets de type "crowd translation". 

Affiche, présentation


- Vendredi 3 décembre 2010 de 11h à 12h15
Matthieu Constant, Université de Marne-la-Vallée (France)
Etiquetage morphosyntaxique avec identification d'unités polylexicales

Résumé:
Dans cette présentation, nous décrirons une approche hybride d'étiquetage morphosyntaxique avec identification d'unités polylexicales. Elle combine à la fois des modèles discriminants de type CRF (Champs Markoviens conditionnels), des ressources lexicales riches et des machines à états finis. Dans un premier temps, nous présenterons l'état de l'art dans le domaine de l'étiquetage morphosyntaxique statistique. Puis, nous montrerons comment adpater les méthodes existantes afin d'identifier en parallèle les unités polylexicales à l'aide de techniques de chunking et des ressources lexicales. Enfin, nous décrirons diverses expériences consistant entre autres à intégrer un analyseur lexical avant la phase d'étiquetage. Les différentes approches utilisées seront évaluées sur le français.

Affiche, présentation


- Vendredi 17 décembre 2010 de 11h à 12h15
Julia Medori, CENTAL
Symbolic and machine learning methods for patient discharge summaries encoding.

Résumé

This talk will address the issue of semi-automatic patient discharge summaries encoding into medical classifications such as the International Classification of Diseases (ICD). We will describe different methods for this task that have been implemented within the framework of the CAPADIS project, in collaboration with Saint-Luc hospital in Brussels. First, machine learning methods will be presented, and then, the implementation of two symbolic methods will be detailed: one is based on the morphological analysis of medical terms extracted with hand-crafted linguistic resources, the other relies on the automatic extraction of variants of ICD code labels. Both types of approach will finally be compared, detailing the advantages and drawbacks of each method.

Affiche, présentation


 - Vendredi 4 février 2011 de 10h à 11h15
Andrey Philippovich, Bauman Moscow State Technical University
Information Technologies of Cognitive Thesauri Design.

Résumé

Cognitive Linguistics is the study of mind through language and the study of language as a cognitive function. Research in Cognitive Linguistics is multidisciplinary; evidence is drawn from text analysis, language acquisition, language change, psycholinguistic experimentation, and brain imaging, and some other sources. That is why new lexicographical structures (dictionaries, thesauri, ontologies and others) are gaining popularity. These structures reflect not so much lexical, frequency, and semantic structure of the language, but its organization in memory and mental processes of the person. Within the framework of this seminar we will discuss principles and practical aspects of building some types of cognitive thesauri using modern information technologies: associative-verbal thesaurus, linguacultural thesaurus, dictionary of metaphors, etc. Also we will demonstrate our computer programs which use cognitive thesauri, and outline further prospective natural language processing applications of these linguistic resources.

Affiche, présentation


- Vendredi 11 février 2011 de 11h à 12h15
Mathieu Loiseau, Université Stendhal Grenoble 3
Prismes et facettes pour l'indexation pédagogique de textes pour l'enseignement des langues

Résumé :
Bien que la recherche de textes paraisse être une des tâches récurrentes de l’enseignement des langues, il semble que peu d’outils aient été conçus dans l’optique de permettre aux enseignants d’accéder à des supports textuels en fonction de critères relevant de leur problématique. Certains travaux s’intéressent à des aspects particuliers de cette tâche, comme par exemple la recherche de textes en fonction de leur lisibilité, d’autres s’en approchent du fait de traiter de collections de textes, mais concernent un objet d’étude différent : des corpus destinés à être utilisés dans l’enseignement des langues. Mais très peu adressent le problème de la recherche (et donc de l'indexation) de textes pour l’enseignement des langues en tant que tel. Le but du travail présenté ici est de proposer un modèle pour l'indexation pédagogique de textes pour l'enseignement des langues. Nous expliquerons pourquoi une approche empirique nous a paru nécessaire et comment les résultats de notre étude ont influencé le modèle que nous détaillerons ensuite. Nous aborderons les notions de prisme et de facette et conclurons avec des extensions possibles du modèle en ALAO.

Affiche, présentation


- Vendredi 25 février 2011 de 11h à 12h15
Elsa Tolone, Université Paris-Est
Utilisation des tables du Lexique-Grammaire dans un analyseur syntaxique

Résumé :
Les tables du Lexique-Grammaire (Gross 1975) constituent un lexique syntaxique très riche pour le
français. Les catégories grammaticales couvertes sont les verbes, les noms prédicatifs, les
expressions figées et les adverbes simples et figés. Cette base de données linguistique n'est
cependant pas directement exploitable informatiquement car elle est incomplète et manque de
cohérence. Notre objectif est d'adapter les tables pour les rendre utilisables dans diverses
applications de Traitement Automatique des Langues (TAL), notamment l'analyse syntaxique
(Tolone 2009). Pour cela, il faut expliciter les propriétés intervenant dans chacune d'entre elles, qui
sont uniquement décrites dans la littérature (Tolone et al. 2010). Ensuite, nous montrons comment,
grâce au travail décrit dans (Constant & Tolone 2010) et (Tolone & Sagot 2011), nous avons
converti les tables du Lexique-Grammaire en un lexique au format Lefff (Sagot 2010), appelé
lexique LGLex, permettant ainsi son intégration dans l'analyseur syntaxique FRMG (Thomasset &
de La Clergerie 2005). Nous évaluons les résultats de l'analyseur syntaxique FRMG sur le corpus de
référence de la campagne Passage en comparant sa version basée sur le Lefff avec notre version
reposant sur les tables du Lexique-Grammaire converties.

Afficherésumé & références, présentation


 - Vendredi 11 mars 2011 de 11h à 12h15
Joseph Roumier et Fabrice Estiévenart du CETIC
Web Sémantique et Linked Data : des concepts, des outils et des données liées pour le traitement des connaissances biomédicales

Résumé:
Le domaine médical doit, aujourd'hui, faire face à une explosion d'information en provenance de sources de données variées telles que les dossiers patients, les protocoles médicaux ou les bases de données moléculaires. Afin d'être efficace dans l'identification des symptômes et dans le traitement des maladies, les acteurs de la santé (médecins, chercheurs, ...) doivent réussir à gérer ces données dont le degré de structuration et le format sont diversifiés. Pour faire face à ces nouveaux challenges, les données liées et les technologies et concepts du Web Sémantique offrent des mécanismes puissants pour l'interrogation et l'interopérabilité sémantique de systèmes d'information hétérogènes. Lors de cet exposé, nous illustrerons ces technologies par deux études de cas développées par le CETIC et ses partenaires : Le projet européen PONTE développe un système de conception d'essais clinique et d'aide à l'identification de patients éligibles à un test clinique sur base de sources  d'information hétérogènes et distribuées.

SIMG, un moteur de recherche sémantique sur les documents collectant l'état des pratiques dans le traitement d'une maladie donnée. Ce prototype permet aux personnes qui l'utilisent de préciser ou d'élargir le résultat de leur recherche en réalisant des extensions de requête par généricité, spécificité ou par relation entre concepts.

Affiche


Mercredi 23 mars 2011 de 12h50 à 13h50
Lucie Barque, Université Paris 13 (LLI)
Titre : Traitement de la néologie sémantique au moyen de patrons de polysémie régulière

Résumé :

Je parlerai dans cet exposé du traitement de la néologie sémantique au moyen de patrons lexicaux représentant des règles de polysémie régulière. La nouvelle acception du nom MULE illustrée dans la phrase  (1) et paraphrasable par « individu chargé de porter de la drogue » pourrait par exemple recevoir une caractérisation sémantique sous­-spécifiée à partir d'un patron de métaphore décrivant le lien entre le sens animal et le sens individu ayant une fonction illustré par plusieurs unités polysémiques en français (COBAYE, GORILLE, LIEVRE, LIMIER, TAUPE).

(1) Ce film coup de poing braque son projecteur sur l'une de ces mules, une jeune colombienne candide.

Après avoir comparé les notions de polysémie régulière et de polysémie systématique et en avoir proposé une modélisation sous forme de patrons lexicaux sous­-spécifiés, je m'intéresserai au problème de l'identification des néologies sémantiques et à leur traitement lexical.

Afficheprésentation


- Vendredi 8 avril 2011 de 11h à 12h15
Jean-Philippe Goldman, Université de Genève
Titre : Analyse prosodique outillée pour l'étude de phonostyle

Résumé

Qu'est-ce qui rend particulier un extrait de parole ? La voix du locuteur, le contenu linguistique, l'ambiance sonore... Mais comment catégoriser plusieurs enregistrements comme appartenant au même style ou à des styles différents. Nous tenterons de cerner les caractéristiques prosodiques pertinentes qui permettent de distinguer des styles de parole, des groupes de locuteurs. Notre approche phonétique se basant sur l'observation de corpus importants, elle nécessite une approche automatisée, que nous détaillerons également.

Afficheprésentation


- Vendredi 29 avril 2011 de 11h à 12h15
Pierre-Yves Thomas, Directeur DBiT
Titre : Combinaison de différentes techniques TAL dans une suite logicielle intégrée.

Résumé

Strad@Office est une suite logicielle intégrée qui permet la modélisation, la gestion et l'exploitation de connaissances. Elle permet la recherche sémantique de contenus de manière cross-language et cross-media.
 
Je présenterai dans cet exposé la plate-forme intégrée et ses modules qui mettent en oeuvre différentes techniques TAL : la reconnaissance automatique de la parole (ASR), OCR, identification de la langue, pos-tagging, analyse syntaxique, désambiguïsation lexicale, analyse sémantique, extraction d'information, élaboration de mémoires de traduction, traduction automatique, clustering non supervisé et catégorisation supervisée(SVM).

  - Vendredi 13 mai 2011 de 11h à 12h15
Thomas François, CENTAL
Titre : Une formule de lisibilité computationnelle pour le français langue étrangère.

Résumé

Quel professeur de FLE n'a pas passé trop de temps à récolter des textes d'un niveau adapté à ses étudiants, que ce soit sur internet, dans la presse, etc. ? Quel autre n'a pas rêvé de générer automatiquement des exercices de langue sur un point de matière précis, tout en contrôlant le niveau de difficulté global des matériaux utilisés ?

Les formules de lisibilité, qui constituent une façon d'évaluer automatiquement la difficulté de matériaux pédagogiques à la lecture, semblent pertinents par rapport à ces problématiques. Délaissées dans les années 80-90, elles ont récemment connu un renouveau sous l'influence de techniques issues du TAL et de l'intelligence artificielle. 

Nos recherches s'ancrent dans ce nouveau paradigme, que nous avons appelé la "lisibilité computationnelle". Elles visent à développer la première formule de lisibilité computationnelle pour le FLE. Dans ce séminaire, nous décrirons les problématiques liées à la conception d'une telle formule, avant de discuter les résultats de notre modèle. Nous terminerons cette présentation par la présentation de Dmesure. Il s'agit du prototype d'un site web qui vise à récupérer automatiquement sur le web des textes d'un niveau de difficulté précis.

  •