Codebook
biul |
Un codebook (livre d'encodage) est un document (fréquemment un tableau) décrivant les variables d'un ensemble de données. Son objectif est d'enregistrer des informations détaillées sur chaque variable. Les informations suivantes peuvent généralement s'y trouver :
- Variable(s) d'identification (ID) : quelle(s) variable(s) contient(nt) l'identifiant unique de l'observation (numéro ou combinaison alphanumérique) ?
- Variables de collecte des données : quelles variables contiennent les informations relatives à la collecte des données (date de la collecte, lieu, chercheur, etc.) ?
- Nom et description de la variable : quel est le nom de la variable dans l'ensemble de données ? Quelle est sa description complète ? Les noms de variables sont généralement courts pour faciliter l'analyse et doivent respecter les règles spécifiques au logiciel utilisé (par exemple, ne pas inclure de caractères spéciaux ou d'espaces). Les descriptions complètes sont utiles pour identifier la variable de manière plus détaillée et peuvent inclure des définitions ou des explications d'acronymes. Si la variable est une question d'enquête, le libellé exact de la question et les instructions peuvent également être indiqués.
- Type de variable : la variable est-elle numérique, ordinale ou catégorielle ? Il est important de vérifier que la variable est identifiée comme telle dans le logiciel utilisé pour le stockage ou l'analyse.
- Valeurs de la variable : quelles sont les valeurs possibles de la variable (catégories ou plage numérique) ? Si la variable est catégorielle, quelles sont les étiquettes correspondant à chaque catégorie ? Par exemple, le sexe peut être codé en 1/2, 1 correspondant à « Femmes » et 2 à « Hommes ».
- Valeurs manquantes : comment les valeurs manquantes sont-elles indiquées ? Il est important de vérifier que les valeurs sont identifiées comme telles dans le logiciel utilisé pour le stockage ou l'analyse. Les différents types de valeurs manquantes peuvent être indiqués de différentes manières. Par exemple, pour distinguer les observations pour lesquelles une variable spécifique devrait être vide (pour des raisons de cohérence ou en raison d'un filtre) des variables pour lesquelles une valeur était attendue mais aucune n'a été encodée (erreur de saisie des données, non-réponse, etc.).
- Traitement des variables : la variable est-elle le résultat d'une étape de traitement des données ? S'agit-il d'un score, d'un indice ou du résultat d'un calcul ? A-t-elle été recodée sur la base d'autres variables ? A-t-elle été standardisée ou transformée d'une autre manière ?
- Base de la variable : sur quelle population la variable est-elle basée ? Les données sont-elles filtrées ou limitées à un sous-groupe d'observations ? Quelle est la taille de la base ?
- Liens entre les variables : la variable est-elle autonome ou doit-elle être analysée avec d'autres variables ? Par exemple, une question à choix multiple dans une enquête doit être codée dans plusieurs variables connexes et une question de suivi doit être analysée en tenant compte de la réponse précédente.
- Pondération : existe-t-il des variables de poids ? Comment ont-elles été créées ? Quand doivent-elles être utilisées ?
- Typologies ou classifications : la variable est-elle basée sur une classification existante ? Quelle est-elle et quelles en sont les sources ou les références ?
- Informations techniques : quelle est la largeur de la variable (le nombre de caractère) ? Quel est le type de variable (le format de la variable) dans le logiciel utilisé pour l'analyse ? Quels sont les séparateurs de décimales et de milliers ? Quel est le nombre de décimales ?
Ressources utiles :