Séminaires du CENTAL (Archives 2009-2010)

CENTAL Louvain-La-Neuve

PROGRAMME 2009-2010

- Vendredi 25 septembre 2009 de 11h à 12h15
Richard Beaufort, CENTAL, UCL.
Recto/Verso. Un système de conversion automatique ancienne/nouvelle orthographe à visée linguistique et didactique. 

Résumé :
L'objectif de ce séminaire est de présenter Recto/Verso, un système de traitement automatique du langage dédié à l’application des rectifications orthographiques de 1990. Ce système a été développé au CENTAL (Centre de Traitement Automatique du Langage, UCL), dans le cadre de la campagne de sensibilisation réalisée en mars dernier par le Service et le Conseil de la langue française et de la politique linguistique de la Communauté française de Belgique. Nous commençons par rappeler les motivations et le contenu de la réforme proposée, et faisons le point sur les principes didactiques retenus dans le cadre de la campagne. La plus grande partie de la présentation est ensuite consacrée à l’implémentation du système. Nous terminons enfin par une petite analyse de l’impact de la campagne sur les utilisateurs, et proposons quelques réflexions quant à l'impact de la nouvelle orthographe sur les applications en Traitement Automatique des Langues.

Affiche, support de la présentation


 - Vendredi 16 octobre 2009 de 11h à 12h15
B. Kindt, UCL-ORI ; Brepols-Publishers.
Titre : Traitement du grec ancien sous UNITEX et ELAG.

Résumé: Ce séminaire illustrera comment les acteurs du « Projet de recherche en lexicologie grecque » (UCL, Institut orientaliste) tirent partie d’UNITEX et de ELAG — l’interface de désambiguïsation lexicale implémentée dans UNITEX — pour traiter des corpus écrits en grec ancien.  L’accent sera mis d’abord sur la description des outils et sur les adaptations nécessaires pour qu’ils puissent assurer un traitement efficace du grec ancien. Il sera ensuite question de la démarche suivie pour construire des règles de désambiguïsation. L’exposé se clôturera par une évaluation des règles décrites, ce qui permettra de mettre en évidence les atouts ou les limites du système ELAG. Remarque : la connaissance du grec ancien n’est pas indispensable pour suivre ce séminaire.

Affiche, support de la présentation


 - Vendredi 30 octobre 2009 de 11h à 12h15
S. Verlinde, Institut interfacultaire des langues vivantes (ILT), K.U.Leuven.
Du dictionnaire informatisé au système d’information lexical intégré.

Résumé:
Repenser entièrement le concept du dictionnaire pour tirer profit au maximum des possibilités qu’offre le support informatique. Voilà le défi que nous avons tenté de relever avec la Base lexicale du français (BLF : ilt.kuleuven.be/blf). Le résultat est un système d’information lexical intégré (Heid 2008) avec des voies d’accès aux informations déterminées par les besoins des utilisateurs, l’intégration de diverses ressources (lexicales) disponibles sur le web et différents types d’aide à la lecture, la traduction et la rédaction.
L’intérêt de la BLF réside en outre dans l’emploi que l’on peut en faire dans différentes situations d’enseignement et dans l’analyse des traces laissées par les utilisateurs.

Affiche, support de la présentation


 - Vendredi 13 novembre 2009 de 11h à 12h15
François Yvon, Limsi/CNRS, Université Paris11.
Titre : Une architecture pour le traitement automatique des SMS. 

Résumé :
Le "langage SMS" fait désormais partie intégrante des nouveaux moyens de communication, puisqu'il est massivement utilisé dans les messages inter-personnels échangés via les téléphones portables, dans les forums de discussion, les commentaires de blogs, etc.).
Traiter automatiquement ces messages, par exemple en vue d'applications de vocalisation automatique, d'indexation de pages Web, d'extraction
d'information, etc, présuppose une étape préalable de normalisation. Les procédés les plus typiques de l'écriture SMS (écriture "phonétique", "consonantique" ou "rébus") nous ont motivés à mettre en oeuvre un système de normalisation s'inspirant des méthodes de décodage phonétique
traditionnellement utilisées en reconnaissance vocable. Ainsi, le SMS à transcrire est converti en un graphe de phonétisations possibles; l'accès à un dictionnaire inverse de phonétisation permet de retrouver l'ensemble des séquences de mots pouvant figurer dans le SMS initial. Enfin, l'application d'un modèle de langage nous permet d'en retirer la séquence de mots la plus probable. Dans cet exposé, après avoir présenté les problèmes liés à la normalisation des SMS, nous détaillerons cette approche, son implémentation par des transducteurs finis pondérés, et discuterons un certain nombre de résultats quantitatifs et qualitatifs qu'elle permet d'obtenir, en les contrastant avec d'autres approches du problème.

Affiche, support de la présentation


- Vendredi 27 novembre 2009 de 11h à 12h15
Nathalie Dehaut, Université Toulouse II.
Titre : Terminologie et interdisciplinarité : le cas de l'exobiologie. 

Résumé :
Depuis  quelques années, la terminologie textuelle ébranle les principes de monosémie et d'univocité sur lesquels se base la terminologie traditionnelle. Alors que la terminologie traditionnelle est profondément prescriptive, la terminologie textuelle devient descriptive et étudie les termes en contexte. Dans ce type de perspective, l’exobiologie constitue un lieu d’observation précieux car il s’agit d’un domaine en train de se constituer et des termes sont « empruntés » aux diverses disciplines impliquées (biologie, chimie, physique, géologie…) mais nécessairement adaptés afin de contribuer à créer un objet commun.L'interdisciplinarité peut-elle être source de polysémie dans la terminologie du domaine? Polysémie qui, jusqu'à présent, a été considérée comme absente des vocabulaires techniques et scientifiques. Une étude des termes en contexte est donc menée. Etant donné que nous ne pouvons nous appuyer sur nos seules intuitions linguistiques dans ce domaine où nous n’avons aucune compétence, nous faisons appel à des experts, issus des principales disciplines représentées en exobiologie, que nous interrogeons pour éviter toute erreur d’interprétation.

Affiche, support de la présentation


 - Vendredi 11 décembre 2009 de 11h à 12h15
Antoine Désir, Labage.
Titre : Qui a peur de l'UPL ? SCP_f / LocalMaxs : une méthode statistique oubliée pour la gestion des unités polylexicales. 

Résumé :
Le token - souvent utilisé en TAL - est une unité graphique et non sémantique. Pour traiter un corpus au niveau sémantique, il est plus pertinent de regrouper certains tokens en unités polylexicales. Le recours aux dictionnaires de mots composés n'est pas toujours possible et peut être limitatif. Les outils probabilistes s'arrêtent en général au bigramme, en calculant le degré d'association entre les deux mots qui le composent. Nous verrons qu'il existe une technique peu connue (qui combine SCP_f et LocalMaxs) pour dépasser cette limite et pour extraire automatiquement d'un corpus les unités polylexicales statistiquement pertinentes, quelle que soit leur longueur. Dans le cadre du moteur de recherche CL!Psci, nous utilisons cette technique pour enrichir nos corpus avant de calculer le voisinage sémantique.

Affiche


  - Vendredi 12 février 2010 de 11h à 12h15
Yves Peirsman, KULeuven.
Titre : Crossing Corpora. Modelling Semantic Similarity across Languages and Lects. 

Résumé :
Semantic spaces help us identify the semantic similarity between two words on the basis of the contexts in which they are used. So far, these spaces have been constructed mainly on the basis of one corpus. In this talk I will show how this paradigm can be extended to situations with two corpora, in order to support research in variational linguistics and cross-lingual knowledge induction. For the investigation of language variation, we can build a semantic space on the basis of two corpora from different language varieties (or lects) of the same language. The resulting space can be used to automatically identify the words that are typical of either variety, and to extract their synonyms from the other lect. I will present case studies from Dutch and German to illustrate this method. In a similar vein, it is also possible to construct a semantic space on the basis of two corpora from different languages. With this type of space, we can bootstrap a bilingual lexicon with word translations between the two languages in a fully unsupervised way. These word translations can subsequently support tasks of cross-lingual knowledge induction, where semantic or syntactic knowledge is generalized from one language to the other. I will apply this idea to a cross-lingual model of verbal selectional preferences in particular.

Affiche, support de la présentation


 - Vendredi 26 février 2010 de 11h à 12h15
Marc Van Campenhoudt, Centre de recherche TERMISTI, Institut supérieur de traducteurs et interprètes (ISTI).
Titre : Le traitement lexicographique des termes spécialisés. 

Résumé :
Cette communication proposera une synthèse des principales avancées réalisées en matière de description et de traitement des données terminographiques dans le cadre des dictionnaires électroniques. En se basant sur les travaux menés au sein du Centre de recherche en linguistique appliquée Termisti (ISTI, Bruxelles), on s'attachera à montrer que les oppositions théoriques censées opposer la lexicographie et la terminographie sont rendues caduques par l'émergence de nouvelles méthodologies issues de l'ingénierie linguistique et de la linguistique de corpus.

Affiche, support de la présentation


 - Vendredi 12 mars 2010 de 11h à 12h15
Philippe Martin, Université Paris 7.
Titre : Détection des proéminences syllabiques et contraintes phonologiques.

Résumé :
La détection des proéminences syllabiques est essentielle pour la validation des théories phonologiques de l'intonation. Parmi les différents algorithmes proposés récemment, quelques uns font appel à des contraintes phonologiques et notamment à la règle des 7 syllabes, vouant que dans une séquence de 7 syllabes consécutives, l'une d'elles au moins soit proéminente. Un algorithme  récent (Martin) utilise cette propriété pour conférer à chaque syllabe un coefficient de proéminence sans nécessiter de segmentation syllabique préalable.

Toutefois, l'examen attentif des procédures manuelles (Avanzi-Simon) montre que la caractérisation « manuelle » de la proéminence ne peut se faire ex nihilo et met en oeuvre des connaissances phonologiques, syntaxiques et sémantiques auxquelles l'algorithme n'a pas accès. C'est pourquoi la détection automatique des proéminences syllabiques ne peut être qu'indicative, et apparaître comme une aide à la décision des phonologues plutôt que comme une procédure totalement fiable.

Affiche, support de la présentation


 - Vendredi 19 mars 2010 de 11h à 12h15
Professeur Zhiwei Feng, Institute of Applied Linguistics, Chinese Ministry of Education (IAL-MOE) and Communication University of China (CUC).
Titre : Inter-textual English vocabulary growth patterns.

Résumé :

  • This talk will explore two fundamental issues concerning the inter-textual vocabulary growth patterns for Marine Engineering English based on the large-scale authentic corpus. They are vocabulary growth models and newly occurring vocabulary distributions in cumulative texts.
  • Four mathematical models (Brunet’s model, Guiraud’s model, Tuldava’s model, and Herdan’s model) are tested against the empirical growth curve for Marine Engineering English.
  • A new growth model is derived from the logarithmic function and the power law.
  • The theoretical mean vocabulary size and the 95% upper and lower bound values are calculated and plotted as functions of the sample size. The research is carried out on the basis of the DMMEE (Dalian Maritime University Marine Engineering English) corpus of DMU (Dalian Maritime University, China).
  • This research has application in explicit EFL (English as Foreign Language) teaching and learning. The new growth model can make reliable estimates not only on the vocabulary size and its 95% confidence intervals for a given textbook, but also on the volume of individual texts that are needed to produce a particular vocabulary size.

Affiche, support de la présentation (AppendixA1, AppendixB1, AppendixC1 )


 - Mercredi 31 mars de 14h à 15h15
Jean-Léon Bouraoui, Orange Labs.
Titre : Expansion sémantique de requête. 

Résumé :
Ce séminaire sera consacré à l'expansion sémantique de requête. Il s'agit d'une technique employée en Recherche d'Information, qui consiste à ajouter des termes à une requête, voire à remplacer celle-ci. L'objectif est de retourner à l'utilisateur des documents qu'il n'aurait pas trouvé avec sa requête initiale (exemple; la requête "voiture" ne permettra pas de trouver les documents ne contenant que le terme "automobile").
Dans un premier temps, nous présenterons en détail la problématique de l'expansion de requête, et les différentes techniques décrites dans la littérature. Nous exposerons ensuite les solutions que nous avons mises en place dans le cadre de notre travail sur ce thème à Orange Labs.

Affiche, support de la présentation


 - Vendredi 7 mai de 11h à 12h15
Libei Chen, R&D Director, Vadis Consulting.
Titre :Automated modelling tools for large scale classification and prediction

Résumé :
Our automated tools are made for solving classification problems on huge data sets with multiple classification objectives:
1. Large amounts of data in terms of number of records; 2. Large number of dimensions and 3. multiple classification problems based on common data sources.

These tools are made by analysts for analysts and combine advanced modelling techniques and best practices in data mining. Their core engine is built to allow an analyst to quickly build models on huge data sets, and have all elements to control the model choices and its quality, in order to focus his attention on the most important part of the modelling process: data quality, overfitting, stability and robustness. Using this engine, the analyst will get support for many modelling phases: audit, variable recoding, variable selection, robustness improvement, result analysis and industrialisation.

These tools are indeed suitable in the multiple classification objectives of documents based on structured information extracted from free texts.

In this talk we are going to see the modelling principles and the automated steps behind these tools. A demo will be made on some practical examples.

Affiche, support de la présentation


 - Vendredi 21 mai de 11h à 12h15
Cynthia Rud et Cédric Bounameaux, ALTISSIA s.a.
Titre : Comment intégrer efficacement l’e-learning dans l’apprentissage d’une langue étrangère ?

Résumé :Ce séminaire a pour but de comparer différentes façons d’intégrer l’e-learning dans le cadre de l’apprentissage d’une langue étrangère chez l’adulte.
Il est basé sur l’expérience acquise par l’équipe qui a développé ALTISSIA, une plateforme de cours en ligne permettant d’apprendre l’anglais, le néerlandais, l’allemand, l’espagnol et le français.
L’exposé débutera par une courte présentation de la pédagogie et des cours proposés sur la plateforme ALTISSIA. Nous proposerons ensuite un aperçu des différents dispositifs de formation intégrant l’e-learning à des degrés divers ; nous reviendrons ainsi sur les concepts d’auto-apprentissage, de « blended learning » et de tutorat ou coaching.
Nous nous concentrerons enfin sur les forces et faiblesses des différents dispositifs de formation afin de mieux comprendre dans quels contextes ils sont les plus appropriés.  

Affiche, support de la présentation