VALIBEL: contenu

Le centre Valibel – Discours et Variation gère une base de données textuelles comprenant les données suivantes :

Corpus Valibel
Code	Recordings	Duration	# tokens	# speakers
67A	4	1h 50 min 18 sec	25.314	8
ACC	44	36h 22 min 43 sec	459.424	53
ALT	2	1h 9 min 20sec	16.598	4
BFA	22	9h 48 min 48 sec	115.992	28
BIF	2	11 min 52 sec	2.092	2
BLA	5	2h 6 min 3 sec	25.522	11
CHA	7	2h 6 min 3 sec	34.984	10
DEB	1	1h 33 min 21 sec	10.298	5
DIG	10	8h 52 min 48 sec	118.487	37
FAM	3	1h 55 min 42 sec	25.706	9
IBM	1	48 min 18 sec	12.006	5
ILC	48	23h 21 min 20 sec	347.145	51
ILE	33	25h 03 min 41 sec	263.124	52
ILJ	25	20h 36 min 15 sec	127.459	26
ILP	39	27h 53 min 53 sec	325.226	52
ILR	106	103h 14 min 13 sec	888.401	111
IRT	2	1h 15 min 11 sec	16.558	5
JOB	4	3h 1 min 9 sec	43.091	5
JTA	24	10h 39 min 48 sec	120.690	13
LIA	38	14h 33 min 16 sec	183.732	41
MAG	1	52 min 39 sec	11.140	3
MAR	11	6h 59 min 22 sec	90.649	19
NOR	27	20h 53min 6 sec	267.251	30
SOU	1	31 min 54 sec	8.021	7
STY	22	5h 28 min 50 sec	71.786	29
Total	444	331h 9 min 53 sec	3.642.500	616

La base de données VALIBEL est une base de données "ouverte" et non un méga-corpus clos, constitué une fois pour toutes. Il convient donc de gérer en permanence l'accroissement des données textuelles et leur diversité.

La plupart des corpus ont été réalisés à l'occasion de recherches orientées vers des thématiques précises: enquêtes sur l'accent, sur les représentations linguistiques, sur la liaison, etc. Néanmoins, ces corpus peuvent être exploités à diverses fins (sociolinguistique, lexicologique, pragmatique, syntaxique, didactique).

Chaque corpus est accompagné de fiches d'identification précisant :
• les caractéristiques sociologiques de chaque locuteur (âge, degré de scolarité, profession, etc.);
• les caractéristiques de l'interaction elle-même (durée, nombre de locuteurs, contextes spatial et temporel, degré de formalité, etc.).

Menu

VALIBEL: contenu

valibel |