VALIBEL: contenu

Le centre Valibel – Discours et Variation gère une base de données textuelles comprenant les données suivantes :

Corpus Valibel
Code Recordings Duration # tokens # speakers
67A 4 1h 50 min 18 sec 25.314 8
ACC 44 36h 22 min 43 sec 459.424 53
ALT 2 1h 9 min 20sec 16.598 4
BFA 22 9h 48 min 48 sec 115.992 28
BIF 2 11 min 52 sec 2.092 2
BLA 5 2h 6 min 3 sec 25.522 11
CHA 7 2h 6 min 3 sec 34.984 10
DEB 1 1h 33 min 21 sec 10.298 5
DIG 10 8h 52 min 48 sec 118.487 37
FAM 3 1h 55 min 42 sec 25.706 9
IBM 1 48 min 18 sec 12.006 5
ILC 48 23h 21 min 20 sec 347.145 51
ILE 33 25h 03 min 41 sec 263.124 52
ILJ 25 20h 36 min 15 sec 127.459 26
ILP 39 27h 53 min 53 sec 325.226 52
ILR 106 103h 14 min 13 sec 888.401 111
IRT 2 1h 15 min 11 sec 16.558 5
JOB 4 3h 1 min 9 sec 43.091 5
JTA 24 10h 39 min 48 sec 120.690 13
LIA 38 14h 33 min 16 sec 183.732 41
MAG 1 52 min 39 sec 11.140 3
MAR 11 6h 59 min 22 sec 90.649 19
NOR 27 20h 53min 6 sec 267.251 30
SOU 1 31 min 54 sec 8.021 7
STY 22 5h 28 min 50 sec 71.786 29
Total 444 331h 9 min 53 sec 3.642.500 616

La base de données VALIBEL est une base de données "ouverte" et non un méga-corpus clos, constitué une fois pour toutes. Il convient donc de gérer en permanence l'accroissement des données textuelles et leur diversité.

La plupart des corpus ont été réalisés à l'occasion de recherches orientées vers des thématiques précises: enquêtes sur l'accent, sur les représentations linguistiques, sur la liaison, etc. Néanmoins, ces corpus peuvent être exploités à diverses fins (sociolinguistique, lexicologique, pragmatique, syntaxique, didactique).

Chaque corpus est accompagné de fiches d'identification précisant :
• les caractéristiques sociologiques de chaque locuteur (âge, degré de scolarité, profession, etc.);
• les caractéristiques de l'interaction elle-même (durée, nombre de locuteurs, contextes spatial et temporel, degré de formalité, etc.).