Aller au contenu principal

Nettoyer les données

biul |

Quelques conseils pour nettoyer vos données :

  • Ouvrez le fichier et examinez la description des données pour vous assurer qu'elles correspondent bien les unes aux autres. 
  • Les données sont-elles conformes au RGPD ?
  • Comment les valeurs manquantes sont-elles encodées ? Attention, il peut y avoir plusieurs types de valeurs manquantes ("je ne veux pas répondre" n'est pas la même chose que ”je ne connais pas la réponse").
  • Les individus/observations sont en ligne et non en colonne.
  • Les noms des colonnes doivent être écrits sur une seule ligne et non sur deux (cela facilitera une éventuelle importation).
  • Supprimer les lignes et colonnes inutiles (et éviter de laisser des colonnes vides au milieu des données).
  • Examinez les types de données : il ne doit y avoir qu'un type par colonne.
  • Si vous importez les données, vérifiez qu'elles sont identiques avant et après l'importation. Par exemple, vous devez avoir le même nombre de lignes et de colonnes.
  • Pour les variables numériques, calculez des statistiques sommaires (minimum, moyenne, quantiles principaux, maximum, boxplots, histogrammes, ...) et vérifiez si les valeurs prises sont possibles (par exemple : une valeur négative comme nombre de battements cardiaques).
  • Vérifiez les niveaux des variables catégorielles, en particulier s'il existe des différences dans la manière dont elles sont écrites (par exemple : Belgium est différent de belgium).
  • Recherchez les observations en double.
  • Recherchez la cohérence entre vos variables (par exemple : état civil = célibataire, mais dans la colonne autre état civil, la personne a écrit marié).
  • Vous devez toujours documenter les modifications apportées à vos données. Conservez-les dans un fichier avec vos données.