Le centre Valibel – Discours et Variation gère une base de données textuelles comprenant les données suivantes :
Code | Recordings | Duration | # tokens | # speakers |
---|---|---|---|---|
67A | 4 | 1h 50 min 18 sec | 25.314 | 8 |
ACC | 44 | 36h 22 min 43 sec | 459.424 | 53 |
ALT | 2 | 1h 9 min 20sec | 16.598 | 4 |
BFA | 22 | 9h 48 min 48 sec | 115.992 | 28 |
BIF | 2 | 11 min 52 sec | 2.092 | 2 |
BLA | 5 | 2h 6 min 3 sec | 25.522 | 11 |
CHA | 7 | 2h 6 min 3 sec | 34.984 | 10 |
DEB | 1 | 1h 33 min 21 sec | 10.298 | 5 |
DIG | 10 | 8h 52 min 48 sec | 118.487 | 37 |
FAM | 3 | 1h 55 min 42 sec | 25.706 | 9 |
IBM | 1 | 48 min 18 sec | 12.006 | 5 |
ILC | 48 | 23h 21 min 20 sec | 347.145 | 51 |
ILE | 33 | 25h 03 min 41 sec | 263.124 | 52 |
ILJ | 25 | 20h 36 min 15 sec | 127.459 | 26 |
ILP | 39 | 27h 53 min 53 sec | 325.226 | 52 |
ILR | 106 | 103h 14 min 13 sec | 888.401 | 111 |
IRT | 2 | 1h 15 min 11 sec | 16.558 | 5 |
JOB | 4 | 3h 1 min 9 sec | 43.091 | 5 |
JTA | 24 | 10h 39 min 48 sec | 120.690 | 13 |
LIA | 38 | 14h 33 min 16 sec | 183.732 | 41 |
MAG | 1 | 52 min 39 sec | 11.140 | 3 |
MAR | 11 | 6h 59 min 22 sec | 90.649 | 19 |
NOR | 27 | 20h 53min 6 sec | 267.251 | 30 |
SOU | 1 | 31 min 54 sec | 8.021 | 7 |
STY | 22 | 5h 28 min 50 sec | 71.786 | 29 |
Total | 444 | 331h 9 min 53 sec | 3.642.500 | 616 |
La base de données VALIBEL est une base de données "ouverte" et non un méga-corpus clos, constitué une fois pour toutes. Il convient donc de gérer en permanence l'accroissement des données textuelles et leur diversité.
La plupart des corpus ont été réalisés à l'occasion de recherches orientées vers des thématiques précises: enquêtes sur l'accent, sur les représentations linguistiques, sur la liaison, etc. Néanmoins, ces corpus peuvent être exploités à diverses fins (sociolinguistique, lexicologique, pragmatique, syntaxique, didactique).
Chaque corpus est accompagné de fiches d'identification précisant :
• les caractéristiques sociologiques de chaque locuteur (âge, degré de scolarité, profession, etc.);
• les caractéristiques de l'interaction elle-même (durée, nombre de locuteurs, contextes spatial et temporel, degré de formalité, etc.).