Qu'est-ce que le TAL?
Le traitement automatique des langues (TAL) est une discipline qui s’est fait récemment connaître du grand public au travers d’applications commerciales à succès comme la correction orthographique automatique, la reconnaissance de la parole, la traduction automatique, la recherche d’information, la gestion documentaire, etc. On utilise parfois à la place de l’intitulé « TAL » des appellations plus ou moins synonymes, comme ingénierie linguistique, linguistique informatique, linguistique computationnelle.
Le Traitement automatique du langage naturel - TALN (ou ingénierie linguistique, linguistique computationnelle, ingénierie des langues, génie linguistique) est l’application de la connaissance des langues à l’élaboration de systèmes informatiques intelligents capables de reconnaître, de comprendre, d’interpréter et de reproduire le langage humain sous ses différentes formes.
- On trouvera des informations complémentaires très intéressantes sur l’ingénierie linguistique dans ces publications en ligne:
-
- Principes l’informatique linguistique, par Jean-Baptiste Berthelin (Groupe langage et cognition, Limsi, Paris).
- Survey of the State of the Art in Human Language Technology (Ronald A. Cole, Joseph Mariani, Hans Uszkoreit, Annie Zaenen, Victor Zue: ed.) - Les technologies linguistiques en Europe.
"Introduction au TAL" par Guy Deville et Virginie Barthel
L’utilisation de votre ordinateur ne serait-elle pas simplifiée s’il suffisait de lui dire ce qu’il doit faire, et si cet ordinateur pouvait répondre oralement à vos requêtes, ou vous poser les questions adéquates ? Quelques mots suffiraient pour utiliser votre téléphone, sélectionner un CD, ouvrir les vitres de votre voiture ou obtenir des informations sur le trafic routier. Ne serait-il pas plus facile de donner un texte à traduire à votre ordinateur plutôt que de devoir le traduire soi-même? Ces deux questions ne sont que de minces exemples de ce que l’ingénierie des langues peut nous offrir.
On peut affirmer que le langage naturel dans toute sa complexité n’est pas calculable, à cause des nombreuses ambiguïtés possibles dues aux différents sens des mots (la sémantique) et aux différentes manières d’agencer ceux-ci dans les différentes langues (la syntaxe). De plus, l’utilisation que nous faisons de ce langage déjà complexe rend les choses encore plus difficiles: notre manière de parler quotidienne est soumise à diverses variantes qui sont absentes des grammaires descriptives et des dictionnaires. Nous ne parlons pas comme nous écrivons, notre accent est différent selon notre région.
Il est cependant possible de modéliser une partie du langage humain à des fins d’automatisation, c’est-à-dire de manière à ce qu’il puisse être reconnu, compris, interprété et reproduit par un ordinateur. Concrètement, l’ingénierie linguistique inclut toute une série de techniques et de ressources linguistiques. Les premières se traduisent par des logiciels informatiques et les secondes constituent des bases de connaissances susceptibles d’être exploitées par ces mêmes logiciels.
L’ingénierie linguistique permet de vivre en toute convivialité avec la technologie. Nous pouvons utiliser notre connaissance du langage pour développer des systèmes capables de reconnaître à la fois la parole et l’écrit, de comprendre un texte suffisamment en profondeur pour être capables de le traiter et d’en extraire des informations, de le traduire dans différentes langues et de générer aussi bien un discours oral qu’un texte imprimé.
Les débouchés dans le secteur de l’ingénierie linguistique comprennent tous les domaines des technologies de l’information appliquées au traitement du langage naturel parlé et écrit (interfaces homme-machine, reconnaissance et synthèse de la parole, outils d’aide à la traduction de documents, dictionnaires électroniques...).
Face à l’évolution des technologies liées à l’informatisation et à l’utilisation de ces technologies dans notre quotidien, le besoin de personnel qualifié dans le domaine des industries de la langue et des laboratoires de recherche va sans cesse croissant. Ce site vous présentera de façon détaillée la formation à suivre pour obtenir le diplôme de second cycle en ingénierie linguistique.
Objectifs de la formation en TAL
L’objectif de la Finalité spécialisée en traitement automatique du langage (TAL) est d’apporter aux étudiants, dans le cadre d’une formation interdisciplinaire, les connaissances et les compétences nécessaires en linguistique et en informatique pour accéder aux métiers des industries de la langue.
> Objectifs de la formation |
Formation théorique et méthodologique poussée — acquisition de compétences pratiques — contacts avec le monde professionnel
L’objectif de la Finalité spécialisée en traitement automatique du langage (TAL) est d’apporter aux étudiants, dans le cadre d’une formation interdisciplinaire, les connaissances et les compétences nécessaires pour accéder aux métiers de « l’ingénierie linguistique ». On entend par cela les métiers du secteur privé ou public qui se situent dans les domaines :
Pour atteindre cet objectif, la formation veille particulièrement à :
Le caractère interdisciplinaire des activités en traitement automatique du langage suscite sur le marché de l’emploi des besoins très diversifiés en terme de profils professionnels. Pour répondre à cette demande, la formation est ouverte à des étudiants ayant des parcours variés : linguistique, langues & littératures, informatique, psychologie, etc. (cf. les conditions d’accès). Les étudiants d’une filière non linguistique peuvent suivre une mise à niveau (Mineure en linguistique). En ce qui concerne le volet informatique du master, des cours introductifs (programmation, systèmes d’exploitation, bases de données, etc.) permettent aux étudiants ayant un bagage limité dans ce domaine de se préparer aux cours plus approfondis. Dans le cas d’étudiants déjà diplômés en informatique, le jury propose un programme alternatif qui renforce la formation en linguistique et remplace les cours d’introduction à l’informatique par des cours d’approfondissement dans des domaines pertinents pour le TAL (pour plus d’information prendre contact avec le responsable académique du diplôme). |
Organisation de la formation
Le Master en linguistique (2 ans) est le point d'ancrage de la formation spécialisée en Traitement automatique du langage. Ce programme associe des cours de linguistique (théorie et méthodologie) et des cours d'informatique (algorithmique, programmation, système, bases de données, etc.) afin d'offrir une préparation complète aux étudiants qui souhaitent travailler dans les « industries de la langue » ou entamer une thèse dans ce domaine. Un stage de 2 mois est inclus dans le programme. Il peut être réalisé en entreprise ou dans un laboratoire universitaire, en Belgique ou à l'étranger.
Condition d'accès
Les parcours de formation possibles sont très nombreux. Vous pouvez consulter les conditions d'accès officielles pour découvrir tous les cas de figure.
- Si vous êtes dans une situation particulière qui n’est pas décrite, n’hésitez pas à prendre contact avec le secrétariat ou le responsable académique de la formation.
- La condition de base est d'avoir validé au moins 30 crédits de cours d’introduction à la linguistique et/ou aux Sciences du langage. Dans le cas contraire, un complément de formation pourra vous être proposé.
- La mineure en linguistique donne un accès direct au master en linguistique (et donc à la finalité TAL) quelle que soit la majeure suivie dans le cadre du baccalauréat et sans prérequis.
Les cours de la finalité TAL
Pour vous permettre de vous faire une idée sur le contenu du programme, nous proposons ci-dessous le descriptif de plusieurs cours faisant partie du programme. Pour plus de détails, vous pouvez également consulter le programme complet du Master en linguistique et de la Finalité en traitement automatique du langage.
-
LFIAL 2620 : Traitement automatique du langage
Découvrez les enjeux et les modèles de base du traitement automatique du langage. Le fossé est bien grand entre « l’ordinateur intelligent » que nous décrivent les oeuvres de fictions (A. I. de Steven Spilberg, 2001 l’Odyssée de l’espace de Kubrick, 1968 etc.) et les capacités actuelles des machines « intelligentes ». Comment doter une machine d’un lexique et d’une grammaire ? Quelle est l’architecture type d’un logiciel de TAL ? En quoi l’ambiguïté de la langue est-elle une difficulté pour la machine ?
Ce cours est donné par C. Fairon, « linguiste-informaticien » et directeur du Centre de traitement automatique du langage de l’UCL. -
LCLIG 2260 : Traitement automatique de la parole
Un ordinateur peut-il « parler » ou « entendre » ? Parler ou entendre sont des activités que l’on attribue habituellement à des êtres animés, la question peut donc surprendre. Mais vous savez probablement qu’il existe aujourd’hui des logiciels capables de faire automatiquement la lecture d’un texte et de prononcer. Si vous prenez le train, vous aurez remarqué que dans de nombreuses gares, les annonces orales sont réalisées par une voix automatique (en fait, il s’agit de messages composés dynamiquement à l’aide de morceaux de phrases préenregistrés : le train de <horaire> à destination de <lieu> a un retard probable de <durée>). La « synthèse vocale » est une technique qui dépasse cette approche par messages préenregistrés en générant automatiquement une représentation phonétique du texte à prononcer puis en produisant le message audio correspondant à cette représentation phonétique en accolant des phonèmes préenregistrés. Plusieurs phénomènes, comme les liaisons ou l’intonation doivent aussi être pris en compte pour générer des énoncés qui semblent naturels. Les applications pour de tels systèmes sont très nombreuses : par exemple, elles peuvent fournir aux personnes mal voyantes une plus meilleure accessibilité aux informations textuelles.
A l’inverse, il est également possible de concevoir des logiciels qui transcrivent la parole en texte. Dans ce cas, la chaîne parlée est découpée en phonèmes et un programme informatique tente ensuite de retrouver les mots et reconstituer les phrases qui ont été prononcées.
Ce cours est donné par Thierry Dutoit, professeur aux FPMS, spécialiste du traitement du signal, auteurs de plusieurs livres et de brevets d’invention dans ce domaine. -
LCLIG 2250 : Méthodologie de l’analyse de corpus en linguistique
Pour fonder scientifiquement les études linguistiques sur des matériaux authentiques, représentant fidèlement la réalité qui va être observée, on utilise souvent des « corpus ». Comment constituer ces corpus (rassembler tous les documents existant ou un « échantillon ») ? Comment s’assurer de la représentativité du corpus : représente-t-il toute la diversité du phénomène que je souhaite observer et dans une distribution fidèle à la réalité ?
Ce cours (du tronc commun en linguistique) est donné par deux professeurs impliqués dans de nombreux projets de recherche centrés sur la constitution et l’utilisation de corpus. Anne-Catherine Simon (corpus oraux) et Cédrick Fairon (traitement informatique). -
CLIG 2220 : Panorama des applications en ingénierie linguistique
Ce cours est organisé sous la forme d’un cycle de conférences présentant les recherches actuelles de l’ingénierie linguistique ayant pour but la mise au point de nouvelles applications et de nouveaux services. Des chercheurs belges et internationaux, actifs dans les universités ainsi que dans les entreprises, sont invités à venir présenter leurs travaux. En parallèle avec ce cycle de conférences, les étudiants suivent par eux-mêmes un parcours pédagogique en formation à distance.
FAQ... frequently asked questions.... foire aux questions
Faut-il être doué en informatique ?Cette formation n’attend pas des étudiants qu’ils arrivent avec de grandes capacités ou connaissances en informatique. Elle offre un parcours progressif en partant d’un niveau d’initiation, mais en progressant à un rythme soutenu. Il ne faut donc pas nécessairement être « doué en informatique » pour commencer la formation, mais il faut nécessairement être prêt à s’y intéresser et à se former. Notons que si la formation a pour but de faire acquérir de bonnes bases en informatiques, elle n’a pas pour vocation de former des informaticiens au sens classique du terme.
Faut-il être fort en math ?Il est commun d’entendre dire que pour faire de l’informatique, il faut être « bon en math ». Il est vrai que des capacités de réflexion logique et une certaine capacité d’abstraction sont nécessaires pour comprendre la programmation ou le fonctionnement des ordinateurs. Mais il ne faut pas pour autant être un pro des mathématiques pour suivre une formation en TAL.
Faut-il connaître plusieurs langues ?La formation n’a pas pour objet d’apprendre des langues. Cependant, dans le milieu professionnel, il est évident que la maîtrise de plusieurs langues représentera un atout incontestable.
Est-ce que je peux faire un Erasmus dans le cadre de ce programme ?Oui, des accords existent avec plusieurs universités (Paris, Grenoble, Toulouse) dans lesquelles se trouvent des équipes réputées dans le domaine du traitement automatique du langage. Vous trouverez dans ces universités des cours spécialisés qui compléteront votre formation et vous permettrons de découvrir d’autres approches théoriques ou d’autres cadres méthodologiques dans le domaine du traitement automatique du langage.
Combien de temps dure le stage ?Le stage en entreprise ou centre de recherche aura une durée minimum de 7 semaines. Le stage doit porter sur un sujet précis. Il ne s’agit pas simplement de « participer à la vie de l’entreprise », mais bien de prendre en charge une réalisation concrète permettant d’appliquer les connaissances acquises tout en approfondissant ces connaissances dans un domaine particulier.
Je suis en baccalauréat, comment puis-je me préparer au Master en TAL ?La meilleure manière de se préparer est de compléter sa formation par la Mineure en linguistique. Cette mineure sera d'ailleurs exigée pour l'accès au master si vous n'avez pas de formation préalable en linguistique. |
Débouchés
La filière TAL donne accès au marché de l’emploi dans le domaine des industries de la langue (traitement de texte intelligent, interfaces vocales/textuelles homme-machine, outils d’aide à la gestion et à la traduction de documents, navigation documentaire, didacticiels, gestion de l’information, apprentissage des langues, etc.) et plus largement dans le domaine des technologies de l'information et de la communication (TIC). Ce master donne également accès à la recherche (doctorat).
Pour découvrir la recherche en TAL à l’UCL, visitez le site web du Centre de traitement automatique du langage (CENTAL) et n’hésitez pas à contacter C. Fairon pour toute information sur les activités du Centre.
Où sont les anciens ?
- Louis de Viron (Promotion 2011). Après mes études en TAL, j'ai travaillé durant trois ans comme chercheur linguiste chez EarlyTracks, une start-up spécialisée en extraction d'information dans des domaines spécifiques (médias, textes médicaux...). J'ai eu l'occasion d'y appliquer dans un cadre industriel les compétences acquises au cours de ma formation à l'UCL. J'ai ensuite rejoint Swan Insights, une start-up spécialisée en data science qui a pour but d'explorer des données issues de sources variées (presse, réseaux sociaux, open data...) et de les combiner pour apporter un regard nouveau sur les entreprises et les personnes. Cela m'a permis d'approfondir mes connaissances en machine learning, mais aussi d'apporter mon expertise de linguiste sur tous les projets mobilisant des données textuelles. Depuis lors, la start-up a été rachetée par le groupe Bisnode, un acteur majeur dans le secteur de rassemblement et de traitement des données. Nous sommes actuellement un pôle de recherche et développement du groupe, avec une importante composante de TAL, ce qui me permet de continuer à mobiliser les compétences acquises durant ma formation.
- Richard Beaufort (Promotion 1999). Je suis actuellement responsable du groupe de Synthèse de la Parole (TTS) à Multitel ASBL (http://www.multitel.be/TTS). Mes recherches concernent donc principalement la synthèse de la parole (analyse linguistique et modèles acoustiques) et ont été implémentées dans les logiciels eLite et LiONS. Je travaille cependant également à des applications de Reconnaissance de la Parole (ASR) et de Reconnaissance Optique de Caractères (OCR). Par ailleurs, je fais une thèse en informatique intitulé « Application des Machines à Etats Finis (FSMs) au traitement de la parole ». Dans cette thèse, j’étudie les aspects algorithmiques des FSMs, et je développe des modèles de langage à orientation linguistique et acoustique. Il faut noter qu’après la formation en GELI, j’ai approfondi mes connaissances en ingénierie de la langue au travers d’un DEA réalisé en France et accessible aux détenteurs du diplôme GELI.
- Marc Miceli (Promotion 2002). J’ai travaillé un an à l’élaboration d’une base de données lexicologiques dans le cadre du projet Leerwoordenboek Zakelijk Nederlands (Philippe Hiligsmann, UCL). Je suis actuellement chercheur à l’Ecole des Langues Vivantes dans le cadre du projet Nederlex (Guy Deville, FUNDP) : http://www.nederlex.be Mon rôle dans ce projet est de gérer, en collaboration avec une informaticienne, une base de données lexicologiques et d’améliorer le balisage des textes qui seront utilisés dans le cadre de cours de langues.
- Sophie Roekhaut (Promotion 2003). Je suis actuellement linguiste informaticienne chez Multitel ASBL (http://www.multitel.be). Je travaille principalement dans le domaine du traitement du langage naturel pour des applications de synthèse vocale et de reconnaissance de la parole. Pour la mise au point de ces applications, la conjonction des deux disciplines de la linguistique et de l’informatique est indispensable. La formation en GELI constitue une base solide et essentielle dans mon emploi actuel.
- Stéphanie Audrit (Promotion 2004). Je travaille actuellement en tant que sociolinguiste au sein du centre de recherche Valibel (http://valibel.fltr.ucl.ac.be), dans le cadre du projet ARC « Hétérogénéité linguistique. Le français en contact dans les écoles à Bruxelles ». Je m’intéresse donc au langage des jeunes issus de l’immigration. Ma thèse, co-dirigée par Michel Francard et Anne-Catherine Simon, porte plus spécifiquement sur les rapports entre marqueurs linguistiques et processus de construction identitaire. Les données sur lesquelles je vais travailler sont des enregistrements spontanés de locuteurs, réalisés sur le terrain. Je souhaite à moyen terme exploiter les acquis de ma formation en GELI pour optimiser le traitement de ces données orales.
- Laurent Pierret (Promotion 2004). Après avoir travaillé pendant 6 mois comme traducteur dans un bureau de traduction du Nord-Luxembourg, j’ai rejoint en mars 2005 l’Office Européen des Brevets (Munich, http://www.epo.org) où je suis responsable informatique pour le service linguistique et terminologie. Mes tâches sont multiples et variées: gestion de la base de données terminologique ; gestion des mémoires de traduction ; contacts entre le service linguistique et le service informatique (system infrastructure, development, support) dans le cadre du développement et de la maintenance des applications utilisées par le service linguistique (gestion du workflow, bases de données multiples, ...) ; recherches terminologiques. Avant de commencer ma formation en Ingénierie linguistique, j’avais obtenu un Diplôme en traduction anglais-allemand de l’ILMH (Bruxelles).
Secrétariat
Vous avez une question sur les modalités d'inscription au Master en linguistique ? N'hésitez pas à prendre contact avec le secrétariat.
Secrétariat des masters et agrégations ELAL
Place Blaise Pascal 1
Bte L3.03.33, bureau b149
B-1348 Louvain-la-Neuve
Tél. : +32 10 47 49 39
Responsable académique
Vous souhaitez des informations complémentaires sur le programme ? Vous êtes à la recherche d'informations spécifiques, en rapport avec votre parcours personnel de formation (dispenses, stages, Erasmus, etc.) ? N'hésitez pas à contacter le responsable académique de la formation.
Cédrick Fairon
Tel. 010/47.37.88
Centre de traitement automatique du langage
Faculté de philosophie et lettres de l'UCL
Place Blaise Pascal, 1
1348 Louvain-la-Neuve
Un contact dans votre université ?
FUNDP : Prof. Guy Deville
FPMS : Prof. Thierry Dutoit
Association des anciens
En projet depuis 2006, L’association des anciens du GELI vient de voir le jour. Elle se veut être un réseau social et professionnel qui permet :
- de faire connaître le travail et les recherches de chaque ancien
- de favoriser les contacts professionnels
- de proposer des collaborations et des offres d'emploi
- de publier des propositions de stages à destination des actuels étudiants
- de rester informé sur les derniers développements et sur les manifestations (colloques, conférences, ateliers, etc.) de la communauté du TAL
- ...
Pour tout renseignement, vous pouvez contacter Hubert Naets (promotion 2001)
Rejoignez-nous sur le Groupe TALN.be de LinkedIn