Master TAL

FIAL

Qu'est-ce que le TAL?

Le traitement automatique des langues (TAL) est une discipline qui s’est fait récemment connaître du grand public au travers d’applications commerciales à succès comme la correction orthographique automatique, la reconnaissance de la parole, la traduction automatique, la recherche d’information, la gestion documentaire, etc. On utilise parfois à la place de l’intitulé « TAL » des appellations plus ou moins synonymes, comme ingénierie linguistique, linguistique informatique, linguistique computationnelle. 

Objectifs de la formation en TAL

L’objectif de la Finalité spécialisée en traitement automatique du langage (TAL) est d’apporter aux étudiants, dans le cadre d’une formation interdisciplinaire, les connaissances et les compétences nécessaires en linguistique et en informatique pour accéder aux métiers des industries de la langue. 

Organisation de la formation

Le Master en linguistique (2 ans) est le point d'ancrage de la formation spécialisée en Traitement automatique du langage. Ce programme associe des cours de linguistique (théorie et méthodologie) et des cours d'informatique (algorithmique, programmation, système, bases de données, etc.) afin d'offrir une préparation complète aux étudiants qui souhaitent travailler dans les « industries de la langue » ou entamer une thèse dans ce domaine. Un stage de 2 mois est inclus dans le programme. Il peut être réalisé en entreprise ou dans un laboratoire universitaire, en Belgique ou à l'étranger.

Condition d'accès

Les parcours de formation possibles sont très nombreux. Vous pouvez consulter les conditions d'accès officielles pour découvrir tous les cas de figure.

  • Si vous êtes dans une situation particulière qui n’est pas décrite, n’hésitez pas à prendre contact avec le secrétariat ou le responsable académique de la formation.
  • La condition de base est d'avoir validé au moins 30 crédits de cours d’introduction à la linguistique et/ou aux Sciences du langage. Dans le cas contraire, un complément de formation pourra vous être proposé.
  • La mineure en linguistique donne un accès direct au master en linguistique (et donc à la finalité TAL) quelle que soit la majeure suivie dans le cadre du baccalauréat et sans prérequis.

Les cours de la finalité TAL

Pour vous permettre de vous faire une idée sur le contenu du programme, nous proposons ci-dessous le descriptif de plusieurs cours faisant partie du programme. Pour plus de détails, vous pouvez également consulter le programme complet du Master en linguistique et de la Finalité en traitement automatique du langage.

  • LFIAL 2620 : Traitement automatique du langage

    Découvrez les enjeux et les modèles de base du traitement automatique du langage. Le fossé est bien grand entre « l’ordinateur intelligent » que nous décrivent les oeuvres de fictions (A. I. de Steven Spilberg, 2001 l’Odyssée de l’espace de Kubrick, 1968 etc.) et les capacités actuelles des machines « intelligentes ». Comment doter une machine d’un lexique et d’une grammaire ? Quelle est l’architecture type d’un logiciel de TAL ? En quoi l’ambiguïté de la langue est-elle une difficulté pour la machine ?
    Ce cours est donné par C. Fairon, « linguiste-informaticien » et directeur du Centre de traitement automatique du langage de l’UCL.

  • LCLIG 2260 : Traitement automatique de la parole

    Un ordinateur peut-il « parler » ou « entendre » ? Parler ou entendre sont des activités que l’on attribue habituellement à des êtres animés, la question peut donc surprendre. Mais vous savez probablement qu’il existe aujourd’hui des logiciels capables de faire automatiquement la lecture d’un texte et de prononcer. Si vous prenez le train, vous aurez remarqué que dans de nombreuses gares, les annonces orales sont réalisées par une voix automatique (en fait, il s’agit de messages composés dynamiquement à l’aide de morceaux de phrases préenregistrés : le train de <horaire> à destination de <lieu> a un retard probable de <durée>). La « synthèse vocale » est une technique qui dépasse cette approche par messages préenregistrés en générant automatiquement une représentation phonétique du texte à prononcer puis en produisant le message audio correspondant à cette représentation phonétique en accolant des phonèmes préenregistrés. Plusieurs phénomènes, comme les liaisons ou l’intonation doivent aussi être pris en compte pour générer des énoncés qui semblent naturels. Les applications pour de tels systèmes sont très nombreuses : par exemple, elles peuvent fournir aux personnes mal voyantes une plus meilleure accessibilité aux informations textuelles.
    A l’inverse, il est également possible de concevoir des logiciels qui transcrivent la parole en texte. Dans ce cas, la chaîne parlée est découpée en phonèmes et un programme informatique tente ensuite de retrouver les mots et reconstituer les phrases qui ont été prononcées.
    Ce cours est donné par Thierry Dutoit, professeur aux FPMS, spécialiste du traitement du signal, auteurs de plusieurs livres et de brevets d’invention dans ce domaine.

  • LCLIG 2250 : Méthodologie de l’analyse de corpus en linguistique

    Pour fonder scientifiquement les études linguistiques sur des matériaux authentiques, représentant fidèlement la réalité qui va être observée, on utilise souvent des « corpus ». Comment constituer ces corpus (rassembler tous les documents existant ou un « échantillon ») ? Comment s’assurer de la représentativité du corpus : représente-t-il toute la diversité du phénomène que je souhaite observer et dans une distribution fidèle à la réalité ?
    Ce cours (du tronc commun en linguistique) est donné par deux professeurs impliqués dans de nombreux projets de recherche centrés sur la constitution et l’utilisation de corpus. Anne-Catherine Simon (corpus oraux) et Cédrick Fairon (traitement informatique).

  • CLIG 2220 : Panorama des applications en ingénierie linguistique

    Ce cours est organisé sous la forme d’un cycle de conférences présentant les recherches actuelles de l’ingénierie linguistique ayant pour but la mise au point de nouvelles applications et de nouveaux services. Des chercheurs belges et internationaux, actifs dans les universités ainsi que dans les entreprises, sont invités à venir présenter leurs travaux. En parallèle avec ce cycle de conférences, les étudiants suivent par eux-mêmes un parcours pédagogique en formation à distance.

FAQ... frequently asked questions.... foire aux questions

 

Faut-il être doué en informatique ?

Cette formation n’attend pas des étudiants qu’ils arrivent avec de grandes capacités ou connaissances en informatique. Elle offre un parcours progressif en partant d’un niveau d’initiation, mais en progressant à un rythme soutenu. Il ne faut donc pas nécessairement être « doué en informatique » pour commencer la formation, mais il faut nécessairement être prêt à s’y intéresser et à se former. Notons que si la formation a pour but de faire acquérir de bonnes bases en informatiques, elle n’a pas pour vocation de former des informaticiens au sens classique du terme.

 

Faut-il être fort en math ?

Il est commun d’entendre dire que pour faire de l’informatique, il faut être « bon en math ». Il est vrai que des capacités de réflexion logique et une certaine capacité d’abstraction sont nécessaires pour comprendre la programmation ou le fonctionnement des ordinateurs. Mais il ne faut pas pour autant être un pro des mathématiques pour suivre une formation en TAL.

 

Faut-il connaître plusieurs langues ?

La formation n’a pas pour objet d’apprendre des langues. Cependant, dans le milieu professionnel, il est évident que la maîtrise de plusieurs langues représentera un atout incontestable.

 

Est-ce que je peux faire un Erasmus dans le cadre de ce programme ?

Oui, des accords existent avec plusieurs universités (Paris, Grenoble, Toulouse) dans lesquelles se trouvent des équipes réputées dans le domaine du traitement automatique du langage. Vous trouverez dans ces universités des cours spécialisés qui compléteront votre formation et vous permettrons de découvrir d’autres approches théoriques ou d’autres cadres méthodologiques dans le domaine du traitement automatique du langage.

 

Combien de temps dure le stage ?

Le stage en entreprise ou centre de recherche aura une durée minimum de 7 semaines. Le stage doit porter sur un sujet précis. Il ne s’agit pas simplement de « participer à la vie de l’entreprise », mais bien de prendre en charge une réalisation concrète permettant d’appliquer les connaissances acquises tout en approfondissant ces connaissances dans un domaine particulier.

 

Je suis en baccalauréat, comment puis-je me préparer au Master en TAL ?

La meilleure manière de se préparer est de compléter sa formation par la Mineure en linguistique. Cette mineure sera d'ailleurs exigée pour l'accès au master si vous n'avez pas de formation préalable en linguistique.  

Débouchés

La filière TAL donne accès au marché de l’emploi dans le domaine des industries de la langue (traitement de texte intelligent, interfaces vocales/textuelles homme-machine, outils d’aide à la gestion et à la traduction de documents, navigation documentaire, didacticiels, gestion de l’information, apprentissage des langues, etc.) et plus largement dans le domaine des technologies de l'information et de la communication (TIC). Ce master donne également accès à la recherche (doctorat).

Pour découvrir la recherche en TAL à l’UCL, visitez le site web du Centre de traitement automatique du langage (CENTAL) et n’hésitez pas à contacter C. Fairon pour toute information sur les activités du Centre.

 

Où sont les anciens ?

  • Louis de Viron (Promotion 2011). Après mes études en TAL, j'ai travaillé durant trois ans comme chercheur linguiste chez EarlyTracks, une start-up spécialisée en extraction d'information dans des domaines spécifiques (médias, textes médicaux...). J'ai eu l'occasion d'y appliquer dans un cadre industriel les compétences acquises au cours de ma formation à l'UCL. J'ai ensuite rejoint Swan Insights, une start-up spécialisée en data science qui a pour but d'explorer des données issues de sources variées (presse, réseaux sociaux, open data...) et de les combiner pour apporter un regard nouveau sur les entreprises et les personnes. Cela m'a permis d'approfondir mes connaissances en machine learning, mais aussi d'apporter mon expertise de linguiste sur tous les projets mobilisant des données textuelles. Depuis lors, la start-up a été rachetée par le groupe Bisnode, un acteur majeur dans le secteur de rassemblement et de traitement des données. Nous sommes actuellement un pôle de recherche et développement du groupe, avec une importante composante de TAL, ce qui me permet de continuer à mobiliser les compétences acquises durant ma formation.
  • Richard Beaufort (Promotion 1999). Je suis actuellement responsable du groupe de Synthèse de la Parole (TTS) à Multitel ASBL (http://www.multitel.be/TTS). Mes recherches concernent donc principalement la synthèse de la parole (analyse linguistique et modèles acoustiques) et ont été implémentées dans les logiciels eLite et LiONS. Je travaille cependant également à des applications de Reconnaissance de la Parole (ASR) et de Reconnaissance Optique de Caractères (OCR). Par ailleurs, je fais une thèse en informatique intitulé « Application des Machines à Etats Finis (FSMs) au traitement de la parole ». Dans cette thèse, j’étudie les aspects algorithmiques des FSMs, et je développe des modèles de langage à orientation linguistique et acoustique. Il faut noter qu’après la formation en GELI, j’ai approfondi mes connaissances en ingénierie de la langue au travers d’un DEA réalisé en France et accessible aux détenteurs du diplôme GELI.
  • Marc Miceli (Promotion 2002). J’ai travaillé un an à l’élaboration d’une base de données lexicologiques dans le cadre du projet Leerwoordenboek Zakelijk Nederlands (Philippe Hiligsmann, UCL). Je suis actuellement chercheur à l’Ecole des Langues Vivantes dans le cadre du projet Nederlex (Guy Deville, FUNDP) : http://www.nederlex.be Mon rôle dans ce projet est de gérer, en collaboration avec une informaticienne, une base de données lexicologiques et d’améliorer le balisage des textes qui seront utilisés dans le cadre de cours de langues.
  • Sophie Roekhaut (Promotion 2003). Je suis actuellement linguiste informaticienne chez Multitel ASBL (http://www.multitel.be). Je travaille principalement dans le domaine du traitement du langage naturel pour des applications de synthèse vocale et de reconnaissance de la parole. Pour la mise au point de ces applications, la conjonction des deux disciplines de la linguistique et de l’informatique est indispensable. La formation en GELI constitue une base solide et essentielle dans mon emploi actuel.
  • Stéphanie Audrit (Promotion 2004). Je travaille actuellement en tant que sociolinguiste au sein du centre de recherche Valibel (http://valibel.fltr.ucl.ac.be), dans le cadre du projet ARC « Hétérogénéité linguistique. Le français en contact dans les écoles à Bruxelles ». Je m’intéresse donc au langage des jeunes issus de l’immigration. Ma thèse, co-dirigée par Michel Francard et Anne-Catherine Simon, porte plus spécifiquement sur les rapports entre marqueurs linguistiques et processus de construction identitaire. Les données sur lesquelles je vais travailler sont des enregistrements spontanés de locuteurs, réalisés sur le terrain. Je souhaite à moyen terme exploiter les acquis de ma formation en GELI pour optimiser le traitement de ces données orales.
  • Laurent Pierret (Promotion 2004). Après avoir travaillé pendant 6 mois comme traducteur dans un bureau de traduction du Nord-Luxembourg, j’ai rejoint en mars 2005 l’Office Européen des Brevets (Munich, http://www.epo.org) où je suis responsable informatique pour le service linguistique et terminologie. Mes tâches sont multiples et variées: gestion de la base de données terminologique ; gestion des mémoires de traduction ; contacts entre le service linguistique et le service informatique (system infrastructure, development, support) dans le cadre du développement et de la maintenance des applications utilisées par le service linguistique (gestion du workflow, bases de données multiples, ...) ; recherches terminologiques. Avant de commencer ma formation en Ingénierie linguistique, j’avais obtenu un Diplôme en traduction anglais-allemand de l’ILMH (Bruxelles).

Secrétariat

Vous avez une question sur les modalités d'inscription au Master en linguistique ? N'hésitez pas à prendre contact avec le secrétariat.

Marina KYNDT
Secrétariat Langues et Lettres Modernes,
Linguistique & Communication Multilingue
Place Blaise Pascal 1
Bte L3.03.33, bureau C363
B-1348 Louvain-la-Neuve
marina.kyndt@uclouvain.be
Tél. : +32 10 47 49 39

Responsable académique

 

Vous souhaitez des informations complémentaires sur le programme ? Vous êtes à la recherche d'informations spécifiques, en rapport avec votre parcours personnel de formation (dispenses, stages, Erasmus, etc.) ? N'hésitez pas à contacter le responsable académique de la formation.

Cédrick Fairon - cedrick.fairon@uclouvain.be
Tel. 010/47.37.88
Centre de traitement automatique du langage
Faculté de philosophie et lettres de l'UCL
Place Blaise Pascal, 1
1348 Louvain-la-Neuve

Un contact dans votre université ?

FUNDP : Prof. Guy Deville (guy.deville@fundp.ac.be)
FPMS : Prof. Thierry Dutoit (thierry.dutoit@fpms.ac.be)

Association des anciens

En projet depuis 2006, L’association des anciens du GELI vient de voir le jour. Elle se veut être un réseau social et professionnel qui permet :

  • de faire connaître le travail et les recherches de chaque ancien
  • de favoriser les contacts professionnels
  • de proposer des collaborations et des offres d'emploi
  • de publier des propositions de stages à destination des actuels étudiants
  • de rester informé sur les derniers développements et sur les manifestations (colloques, conférences, ateliers, etc.) de la communauté du TAL
  • ...

Pour tout renseignement, vous pouvez contacter Hubert Naets (promotion 2001) : hubertnaets@gmail.com

Rejoignez-nous sur le Groupe TALN.be de LinkedIn