Archives 2015-2016


PREMIER QUADRIMESTRE


 

Vendredi 16 octobre 2015 de 14h à 15h

Annie Louis (University of Edinburgh)

Document-level Text Quality: Models for Organization and Reader Interest

When we read articles, we spontaneously make judgements about whether it is well-written or not, boring or interesting, too dense or not contentful enough. The goal of text quality prediction is to enable automatic systems to make similar predictions about the quality of texts. The capacity to make such predictions has great potential for article recommendation, educational assessment and improving text generation systems. Computational work on this topic has been successful for spelling and grammar quality where models often operate on words or single sentences. My interests lie in predicting text quality aspects which require discourse or document-level understanding and modeling of text properties. In this talk, I will present some of my work along these lines.

In particular, I will focus on two aspects--document organization and reader interest--and in the context of two science-related genres of text. I will first talk about a method to predict the organization quality of an article based on the sequence of sentence types in the article. We evaluate this approach on academic writing samples where articles have well-defined sections and a small number of sentence types. In the second part of the talk, I will focus on measures to indicate the interesting nature of a science journalism article. In this genre, where science is described to lay readers, articles are written to be informative and at the same time entertaining to readers. We have created a corpus of science journalism articles categorized for interest value. I will describe how we developed metrics related to visual nature, story-telling format, beautiful and surprising language use and study how these measures are related to and indicative of the quality categories on our corpus.

 


Vendredi 6 novembre 2015 de 14h à 15h

Thomas François (Chargé de recherche FNRS au CENTAL)

La prédiction automatisée de la difficulté lexicale par la combinaison de ressources et de méthodes d'apprentissage automatisé

Dans le domaine de l'enseignement des langues secondes et étrangères (L2), la connaissance lexicale est reconnue comme étant centrale pour l'apprentissage et pour la bonne utilisation de la L2. Bien que de nombreux travaux se soient penchés sur la taille du vocabulaire à connaître (ex. Hirsch and Nation, 1992 ; Laufer, 1992), il reste difficile de déterminer quels mots un apprenant donné connaît ou devrait apprendre à un moment précis de son apprentissage. La progression de l'acquisition lexicale est généralement guidée par des listes de vocabulaire, telles que celle de Gougenheim (1958). Ces listes s'appuient principalement sur les fréquences lexicales calculées sur corpus L1 et leur transposition en L2 est parfois discutable. Dans le cadre du CECR, une alternative a été développée, à savoir des référentiels qui listent des contenus d'apprentissage par niveau. Cependant, de par leur conception, ces référentiels ont déjà amené des équipes de chercheurs à en remettre en cause la validité (ex. projets KELLY ou VALILEX).

Nous décrivons, dans cette communication, diverses approches automatisées de la difficulté lexicale. Tout d'abord, nous présenterons FLELex, une ressource gratuite, qui décrit la distribution d'environ 15 000 mots sur les 6 niveaux du CECR pour le français langue étrangère (FLE). Il s'agit d'une source alternative d'information concernant l'usage des mots au long de l'apprentissage du FLE, dont nous détaillerons la méthodologie de conception. Nous présenterons également un site web qui permet de consulter cette ressource directement sur le net. Dans un second temps, nous rapporterons différentes expériences visant à prédire automatiquement la difficulté du lexique, aussi bien pour un groupe d'apprenants que pour un apprenant donné (prédiction personnalisée).

  


Vendredi 27 novembre 2015 de 15h à 16h

Alexander Panchenko (Technische Universität Darmstadt)

Text Analysis of Social Networks: Working with FB.com and VK.com Data

Rapid growth of social networks is astonishing. Billions of users across the world regularly use Facebook, Twitter and other online social networks. No wonder that many academic and industrial organisations, including the social networks themselves in the first place, actively investigate methods of analysis of these data. From linguistic point of view, social networks represent one of the biggest text corpora in existence annotated with rich information, such as author, gender, age, language, location, and so on.

Goals of Social Network Analysis (SNA) vary from improvement of user interface and advertisement targeting to identification centres of spread of new viral diseases. Furthermore, online social networks have immense potential in sociological studies.

Methods of SNA can be categorised into two groups: methods of structure analysis (e.g. networks of friends, likes, comments and so on) and methods of content analysis (e.g. user profile attributes, texts of post and comments and so on). In this talk, we will focus on the second group of methods. First will discuss technologies of social network data harvesting and storage. Second, we will consider several applications of Machine Learning and Natural Language Processing to the following problems:

  • prediction of user interests;
  • prediction of user age, gender and region;
  • matching of user profiles from different social networks.

 


Vendredi 11 décembre 2015 de 14h à 15h

Maxime Warnier (Université de Toulouse)

Vers une langue contrôlée pour la rédaction des exigences au Centre National d'Études Spatiales inspirée de régularités linguistiques observées en corpus

Les risques inhérents à la langue naturelle (ambiguïté, imprécision et incomplétude, principalement), quoique sans conséquence dans la communication quotidienne, deviennent critiques dès lors qu’ils apparaissent dans des documents dont l’interprétation correcte est indispensable, tel que c’est le cas pour les spécifications (ou collections d’exigences) de projets de grande envergure. Ce problème étant bien connu des grandes entreprises et institutions, des solutions nombreuses et diverses ont été proposées pour le limiter autant que possible. Parmi celles-ci figurent en bonne place les langues contrôlées, qui consistent à poser des restrictions sur le lexique, la syntaxe et/ou la sémantique (Kuhn, 2014) d’une langue naturelle dans le but d’en éliminer les mots et structures potentiellement équivoques.

Dans cette présentation, nous nous proposons de détailler la méthodologie que nous avons mise au point dans l’optique de proposer au Centre National d’Études Spatiales (CNES), l’agence spatiale française, une langue contrôlée adaptée à la rédaction d’exigences de systèmes spatiaux. Cette dernière se devant, selon nous, d’être proche des pratiques effectives des ingénieurs du CNES, nous basons notre démarche sur l’analyse d’un corpus d’exigences réelles, afin d’en extraire les régularités susceptibles d’être intégrées dans de futures règles. Pour ce faire, nous nous inspirons à la fois des instructions imposées par des langues contrôlées existantes et des résultats fournis par des outils de traitement automatique de la langue. Notre propos sera illustré par des exemples authentiques.

 


 

 


DEUXIEME QUADRIMESTRE


 

Vendredi 18 mars 2016, de 14h à 15h

Louis de Viron (Swan Insights)

Swan.business : Turn information into insights

Swan Insights est une start-up belge spécialisée dans l'industrie des Big Data, active dans les secteurs de la finance, du marketing et des ressources humaines. Ses produits ont pour objectif principal de délivrer des informations pertinentes et directement actionnables pour chacun de ses utilisateurs. Pour ce faire, deux aspects sont particulièrement cruciaux: l'acquisition et le traitement massifs de données brutes, et l'extraction d'informations fiables et de qualité, tenant compte de l'utilisateur final. 

Durant ce séminaire, nous présenterons les défis soulevés par le Big Data, et les solutions technologiques proposées par Swan Insights pour y répondre. Nous illustrerons ces solutions en présentant les principaux produits, avant de développer plus précisément l'un d'entre eux: Swan.business. Swan.business est une plateforme de génération d'opportunités et de veille stratégique, permettant à une société de suivre l'évolution de ses clients et prospects B2B à travers de nombreux canaux (sources légales, presse, réseaux sociaux…), d'identifier des sociétés comparables à des fins de prospection, ou encore de surveiller le marché et la concurrence. Les besoins R&D comportent une importante composante NLP, et ce à différents niveaux. Nous nous attacherons à détailler différentes recherches qui ont mené à ce produit, ainsi que les pistes de développement en cours, en insistant particulièrement sur les aspects de Text Mining.

 


Vendredi 15 avril 2016, de 14h à 15h

Magali Paquot (UCL, CECL) et Hubert Naets (UCL, CENTAL)

Les collocations statistiques au service de la recherche en acquisition des langues étrangères

Les recherches actuelles en linguistique de corpus, psycholinguistique et linguistique cognitive s’accordent sur le constat que les combinaisons de mots jouent un rôle essentiel dans l’acquisition des langues, la fluence, l’idiomaticité et l’évolution des langues. La phraséologie est aujourd’hui au cœur de nombreux développements théoriques et empiriques dans les domaines de l’acquisition et de l’enseignement des langues étrangères.  

Dans cette présentation, nous nous intéresserons plus particulièrement au phénomène des collocations statistiques et à leur emploi par des apprenants de l’anglais langue étrangère. Nous montrerons comment des mesures d’association, telles que le score d’information mutuelle, couplées à des techniques de TAL (lemmatisation, annotation morphosyntaxique, annotation en relations de dépendance), peuvent être utilisées pour différencier des textes produits par des apprenants de l’anglais de niveau B2, C1 et C2 du Cadre européen commun de référence pour les langues (Conseil de l’Europe, 2001). Nous montrerons également que ces mesures permettent d’obtenir de meilleurs résultats pour cette tâche que des mesures de complexité linguistique traditionnelles.

Nous terminerons par un exposé des principales implications théoriques et pratiques de nos résultats pour la recherche en acquisition des langues étrangères, leur enseignement et leur évaluation. 

  


Vendredi 22 avril 2016, de 14h à 15h

Detmar Meurers (Universität Tübingen, Seminar für Sprachwissenschaft)

Language learning and NLP: Connecting needs and opportunities

While Second Language Acquisition (SLA) research and Foreign Language Teaching and Learning (FLTL) Practice is as much driven by fashions and schools as other fields, there is common agreement on core areas and needs. This includes the importance of Input at the right level for the learner (cf. Krashen’s i+1, Vygotsky’s ZPD, Pienemann’s Teachability) and richly representing the forms and categories to be acquired. Work since the 90s has also stressed the importance of making the relevant forms salient enough for learners to notice them (Schmidt’s Noticing Hypothesis, Sharwood Smith’s Input Enhancement). In instructed SLA, there is a wealth of research on tasks, feedback and scaffolding techniques supporting interaction integrating form, meaning and function in context.

In this talk, I touch on some of these aspects to explore where the automatic analysis of language provided by NLP tools can address some of the needs of language learners (and teachers) identified in SLA and FLTL. I will sketch a range of opportunities to support teaching and learning in real-life practice (and feeding back into language learning research) and exemplify them with some of our work providing automatic Input Enrichment, Input Enhancement, and feedback in an Intelligent Tutoring System integrating meaning-based tasks - and some related research ideas we are planning to pursue. 

 


Vendredi 29 avril 2016, de 14h à 15h

André Bittar (Université catholique de Louvain, CENTAL)

Le TAL au service du médical : le projet SYNODOS

Avec l'avènement du Dossier Patient Informatisé (DPI), les hôpitaux créent aujourd'hui des masses conséquentes de données. Le DPI représente une source potentielle très importante de données pour des domaines tels que l'aide à la décision médicale, la médecine factuelle ou la surveillance épidémiologique. Une très grande partie de ces données étant disponible sous forme de texte libre, les méthodes du Traitement automatique des langues (TAL) peuvent être utilisées pour faciliter leur fouille et leur interprétation. Le récent projet ANR SYNODOS avait pour objectif principal la création d'une solution générique d'analyse et de structuration sémantique des données médicales du DPI écrit en français afin de les rendre exploitables dans des études épidémiologiques ou d'aide à la décision médicale.

Pendant ce séminaire, nous présenterons le projet SYNODOS en mettant l'accent sur les méthodes de TAL employées pour répondre aux besoins du projet. En particulier, nous décrirons le système d'analyse sémantique que nous avons développé au sein de la société Holmes Semantic Solutions, partenaire industriel du projet. Cet analyseur repose sur une chaîne de traitement linguistique interfacée avec un serveur terminologique médical. Sa sortie est utilisée pour alimenter une base de connaissances et un système de raisonnement. Le système SYNODOS, implanté au sein du système d'information hospitalier, permet à son utilisateur d'interroger cette base de connaissances en écrivant ses propres règles expert.