Corpus et prototypes

IL&C Louvain-La-Neuve, Mons

Constitution et gestion de corpus/bases de données

Développés par le CECL (Centre for English Corpus Linguistics)

Corpus d’apprenants qui rassemblent des données issues des productions d’étudiants en langue étrangère :

  • ICLE : International Corpus of Learner English
  • LINDSEI : Louvain International Database of Spoken English Interlanguage
  • LONGDALE : Longitudinal Database of Learner English
  • VESPA : Varieties of English for Specific Purposes dAtabase

Corpus qui rassemble du matériel pédagogique (manuels scolaires, par exemple) :

Corpus multilingues qui compilent des données issues de différentes langues :

  • PLECI : Poitiers-Louvain Échange de Corpus Informatisés
  • Mult-Ed : Multilingual Editorial Corpus

Corpus d’écrits d’étudiants en anglais natif :

Corpus d’écrits en français langue étrangère :

  • FRIDA : French Interlanguage Database

Corpus de textes scientifiques en anglais dans trois disciplines : business, linguistique et médecine :

  • LOCRA : Louvain Corpus of Research Articles

Développés et/ou alimentés par Valibel (Centre de recherche Discours et Variation)

Corpus de données orales : 

  • CIEL-F : corpus international écologique de la langue française
  • Corpage : corpus de référence sur le langage des personnes âgées
  • CorpAGEst : corpus multimodal sur le langage des personnes âgées
  • C-Prom : corpus de français parlé annoté pour l’étude des proéminences prosodiques
  • MOCA : Multimodal Oral Corpora Administration
  • VALIBEL : banque de données textuelles orales du français en Belgique
  • 900 enregistrements d’événements communicatifs variés, leurs transcriptions (plus de 4 millions de mots) et les méta-données associées (profils des locuteurs, etc.)

D'autres corpus écrits peuvent être mis à disposition sous certaines conditions : 

  • ComparaF : corpus équilibré (littérature, théâtre, presse) en français de France et de Belgiqu
  • CAFLaM : corpus d'écrits argumentatifs à l'université
  • Corpus d'écrits argumentatifs d'apprenants du français L2 (extension du corpus FRIDA du CECL)
  • Corpus de traduction français-néerlandais / néerlandais/français (littérature, presse économique)
  • Corpus de presse en ligne
  • LCN : Leerdercorpus Nederlands (corpus d'apprenants du néerlandais)
  • CNO : Corpus Nederlandse Opstellen

Prototypes

Base de données terminologique trilingue

Outil terminologique trilingue (français, anglais, néerlandais) portant sur le vocabulaire propre au monde universitaire développé par le CECL, en collaboration avec le professeur S. Verlinde de la Katholieke Universiteit Leuven.

BDLP Belgique (Base de données lexicographiques panfrancophone)

Contribution belge à la base de données lexicales panfrancophone, afin de permettre :

  • des consultations de cette base « isolées » ou « combinées » (avec d’autres bases de la BDLP)
  • des comparaisons entre la variété belge (Com. française) et d’autres variétés de français.

Coordination : Michel Francard

Julibel

Collection d’exemples pédagogique (écrits littéraires, publicités, corpus oraux, etc.) susceptibles d'être exploités dans les classes de français pour illustrer des phénomènes variés, tels que l'ironie, les connecteurs, les figures de style, etc.

LEAD (Louvain English for Academic Purposes Dictionary)

Dictionnaire d'anglais scientifique doublé d'un outil d'aide à la rédaction en anglais disponible en ligne après identification. Développé par le CECL.

MOCA (Multimodal Oral Corpora Administration)

Le logiciel MOCA permet l’archivage, la consultation et l’annotation de données orales (sons, transcriptions et métadonnées) pour l’étude linguistique. La base de données peut être interrogée en fonction de nombreux descripteurs (sur le locuteur, sur la situation, sur le contenu linguistique) et les données sont ensuite exportables dans différents formats d’analyse.