OpenCorpusCollection

Le projet OpenCorpusCollection est cofinancé par le MiiL et le Cental.

Son objectif est de fournir aux projets de recherche et aux chercheurs des ressources ouvertes issues des réseaux sociaux (Twitter, Reddit, Instagram, TikTok...) dont les méthodes d'échantillonnage sont clairement décrites et scientifiquement ancrées. Le cadre théorique de ce projet est l'approche de la théorie ancrée de Lai et To (2015) et Tromble et al. (2017).

Les corpus sont constitués de textes et d'images dans différentes langues, par ex. en anglais, français, norvégien et néerlandais.

Ces ressources sont fournies avec des métadonnées comme les méthodes d'échantillonnage et d'autres informations (date, langue...).

OpenCorpusCollection développe également un outil de requête pour les utilisateurs non informaticiens (en français pour le moment).

Ce projet est coordonné par :

Louise-Amélie Cougnon (pour le MiiL)
Patrick Watrin (pour le Cental)

Bibliographie :

Cougnon, L.-A., de Viron, L. and Watrin, P. (2022). Collection of Twitter Corpora for Human and Social Sciences: Sampling Methodology and Evaluation. White paper published on SocArXiv, 7 pages.
Lai, L. S. L., & To, W. M. (2015). Content analysis of social media: A grounded theory approach. Journal of Electronic Commerce Research, 16(2), 138-152.
Tromble, R., Storz, A., and Stockmann, D. (2017). We don’t know what we don’t know: When and how the use of twitter's public APIs biases scientific inference. Social Science Research Network, n°3079927.