Computational Linguistics

lingi2263  2020-2021  Louvain-la-Neuve

Computational Linguistics
En raison de la crise du COVID-19, les informations ci-dessous sont susceptibles d’être modifiées jusqu’au 13 septembre, notamment celles qui concernent le mode d’enseignement (en présentiel, en distanciel ou sous un format comodal ou hybride).
5 crédits
30.0 h + 15.0 h
Q1
Langue
d'enseignement
Anglais
Thèmes abordés
  • Concepts de base en phonologie, morphologie, syntaxe et sémantique
  • Ressources linguistiques
  • Etiquetage en partie du discours
  • Modélisation statistique de la langue (N-grams et modèles de Markov cachés)
  • Algorithmes d'analyse robuste, grammaires hors-contexte probabilistes
  • Applications de l'ingénierie linguistique telles que les logiciels de correction orthographique ou grammaticale, l'étiquetage en partie du discours ,l'indexation automatique de documents ou la catégorisation de textes
Acquis
d'apprentissage

A la fin de cette unité d’enseignement, l’étudiant est capable de :

1

Eu égard au référentiel AA du programme « Master ingénieur civil en informatique », ce cours contribue au développement, à l'acquisition et à l'évaluation des acquis d'apprentissage suivants :

  • INFO1.1-3
  • INFO2.3-4
  • INFO5.3-5
  • INFO6.1, INFO6.4

Eu égard au référentiel AA du programme « Master [120] en sciences informatiques », ce cours contribue au développement, à l'acquisition et à l'évaluation des acquis d'apprentissage suivants :

  • SINF1.M4
  • SINF2.3-4
  • SINF5.3-5
  • SINF6.1, SINF6.4

Les étudiants ayant suivi avec fruit ce cours seront capables de

  • décrire les concepts fondamentaux de la modélisation du langage naturel
  • maîtriser la méthodologie de l'utilisation de ressources linguistiques (corpus, dictionnaires, réseaux sémantiques, etc) et faire un choix argumenté entre les différentes ressources linguistiques
  • appliquer de manière pertinente les techniques statistiques de modélisation du langage
  • développer des applications en ingénierie linguistique

Les étudiants auront développé des compétences méthodologiques et opérationnelles.  En particulier, ils auront développé leur capacité à

  • s'intégrer dans une approche pluridisciplinaire à la frontière entre l'informatique et la linguistique, en utilisant à bon escient la terminologie et les outils de l'une ou l'autre discipline,
  • gérer au mieux le temps disponible pour mener à bien des mini-projets,
  • manipuler et exploiter de grandes quantités de données.
 

La contribution de cette UE au développement et à la maîtrise des compétences et acquis du (des) programme(s) est accessible à la fin de cette fiche, dans la partie « Programmes/formations proposant cette unité d’enseignement (UE) ».
Contenu
  • Bases en linguistique : morphologie, partie du discours, structures de phrase, sémantique et pragmatique
  • Analyse de corpus : formatage, tokenization, morphologie, marquage des données
  • Modélisation probabilistes du langage : N-grams, HMMs
  • Etiquetage en parties du discours
  • Grammaires hors-contexte probabilistes : estimation des paramètres et algorithmes d'analyse, utilisation de treebanks
  • Introduction à la traduction automatique
  • Sémantique lexicale
  • Extraction d'information
  • Examples d'applications : marquage de parties de texte, outils d'extraction d'information, parseurs probabilistes, ...
Méthodes d'enseignement

En raison de la crise du COVID-19, les informations de cette rubrique sont particulièrement susceptibles d’être modifiées jusqu’au 13 septembre.

  • Cours magistraux
  • Mini-projets (de 2 à 3 semaines) implémentés, par défaut, en python et réalisés en groupes de 2 étudiants 
  • Séances de discussion sur les corrections des mini-projets
Modes d'évaluation
des acquis des étudiants

En raison de la crise du COVID-19, les informations de cette rubrique sont particulièrement susceptibles d’être modifiées jusqu’au 13 septembre.

Les mini-projets valent pour 25 % de la note finale, 75 % pour l'examen final (à livre fermé).
Les mini-projets NE peuvent PAS être refaits en seconde session, les 25 % sont donc déjà fixés à la fin du quadrimestre et repris tels quels dans la note finale en seconde session.
L'examen final est, par défaut, un écrit (sur papier ou, le cas échéant, sur un ordinateur de l'UCLouvain).
Bibliographie
Support de cours
  • Les supports obligatoires sont constitués de l'ensemble des documents (transparents des cours magistraux, énoncés des travaux pratiques, compléments, ...) disponibles sur le site Moodle du cours.
  • Required teaching material include all documents (lecture slides, project assignments, complements, ...) available on the Moodle website for this course.
Faculté ou entité
en charge


Programmes / formations proposant cette unité d'enseignement (UE)

Intitulé du programme
Sigle
Crédits
Prérequis
Acquis
d'apprentissage
Master [120] : ingénieur civil en science des données

Master [120] en sciences informatiques

Master [120] : ingénieur civil en informatique

Master [120] en linguistique

Master [120] en science des données, orientation statistique

Master [120] en science des données, orientation technologies de l'information