Stratego : Structuration automatique de textes bruts à des fins de groupement et catégorisation

CENTAL Louvain-La-Neuve

Début : octobre 2007
Durée : 36 mois
Financement : Wist 2 Région wallonne

L'objectif principal du projet Stratego est de développer des outils visant à faciliter l'accès à de larges bases documentaires électroniques.

Plus précisément, le projet se concentre sur:

  • la structuration automatique de documents « bruts » (par exemple des documents numérisés) en documents XML satisfaisant un DTD ou un schéma XML,
  • le classement automatique de documents dans des catégories prédéfinies et
  • la constitution semi-automatique de thésaurus à partir de corpus de textes ciblés (ex: des textes de lois).

Plusieurs laboratoires sont impliqués dans ce projet:

  • CENTAL, UCLouvain (Centre de Traitement Automatique du Langage),
  • IRIDIA, ULB (Institut de Recherches Interdisciplinaires et de Développements en Intelligence Artificielle),
  • ISYS, UCLouvain (Information Systems Unit
  • SIC, ULB (Département des Sciences de l'Information et de la Communication)

Publications

  • Kevers Laurent, Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles., Thèse de doctorat en Langues et lettres, Université catholique de Louvain, 31-01-2011.
  • Kevers Laurent et Medori Julia, Symbolic classification methods for patient discharge summaries encoding into ICD, In: Advances in Natural Language Processing, 7th International Conference on NLP, IceTAL 2010, Reykjavik, August 16-18, 2010, Lecture Notes in Artificial Intelligence, 2010, p. 197-208.
  • Kevers Laurent, Mantrach Amin, Fairon Cédrick, Bersini Hugues et Saerens Marco, Classification supervisée hybride par motifs lexicaux étendus et classificateurs SVM, 10èmes Journées internationales d'analyse des données textuelles (JADT), Rome, 9 - 11 juin 2010.
  • Kevers Laurent, Indexation semi-automatique de textes : thésaurus et transducteurs, In: Actes de la Sixième Conférence Francophone en Recherche d'Information et Applications, Presqu'Île de Giens, 2009, p. 151-167

Chercheurs

  • Laurent Kevers (CENTAL)
  • Jérôme Callut (ISYS)
  • Amin Mantrach (IRIDIA)
  • Nicolas van Zeebroeck (SIC)

Promoteurs

  • Prof. Marco Saerens (ISYS)
  • Prof. Cédrick Fairon (CENTAL)
  • Prof. Hugues Bersini (IRIDIA)
  • Prof. Pascal Francq (SIC)

Partenaire industriel