Nettoyer les données
biul |
Quelques conseils pour nettoyer vos données :
- Ouvrez le fichier et examinez la description des données pour vous assurer qu'elles correspondent bien les unes aux autres.
- Les données sont-elles conformes au RGPD ?
- Comment les valeurs manquantes sont-elles encodées ? Attention, il peut y avoir plusieurs types de valeurs manquantes ("je ne veux pas répondre" n'est pas la même chose que ”je ne connais pas la réponse").
- Les individus/observations sont en ligne et non en colonne.
- Les noms des colonnes doivent être écrits sur une seule ligne et non sur deux (cela facilitera une éventuelle importation).
- Supprimer les lignes et colonnes inutiles (et éviter de laisser des colonnes vides au milieu des données).
- Examinez les types de données : il ne doit y avoir qu'un type par colonne.
- Si vous importez les données, vérifiez qu'elles sont identiques avant et après l'importation. Par exemple, vous devez avoir le même nombre de lignes et de colonnes.
- Pour les variables numériques, calculez des statistiques sommaires (minimum, moyenne, quantiles principaux, maximum, boxplots, histogrammes, ...) et vérifiez si les valeurs prises sont possibles (par exemple : une valeur négative comme nombre de battements cardiaques).
- Vérifiez les niveaux des variables catégorielles, en particulier s'il existe des différences dans la manière dont elles sont écrites (par exemple : Belgium est différent de belgium).
- Recherchez les observations en double.
- Recherchez la cohérence entre vos variables (par exemple : état civil = célibataire, mais dans la colonne autre état civil, la personne a écrit marié).
- Vous devez toujours documenter les modifications apportées à vos données. Conservez-les dans un fichier avec vos données.