Aller au contenu principal

Sélectionner et préparer ses données

biul |

Toutes les données ne doivent pas être nécessairement publiées. Et dans certains cas, les données ne peuvent pas être publiées. La règle balisant l’ouverture des données de la recherche est la suivante : « Aussi ouvert que possible, aussi fermé que nécessaire ». Il convient de sélectionner les données à publier.

Sélectionner les données à publier :

Portez attention à la législation applicable à vos données, à votre accord de consortium, à la convention que vous avez éventuellement avec votre bailleur de fonds ou à tout autre contrat pour savoir s'il existe des restrictions au partage de vos données et si vous devez conserver ou détruire certaines données. 

Si votre jeu de données comporte des données à caractère personnel, vous devez vous conformer au RGPD. Selon le RGPD, les données à caractère personnel ne peuvent être conservées que le temps nécessaire pour atteindre les objectifs initiaux du traitement des données et doivent ensuite être détruites en toute sécurité. Toutefois, il peut y avoir des exceptions à des fins scientifiques, statistiques ou historiques. Vous trouverez plus d'informations sur le RGPD ici.

Outre les données à caractère personnel, il peut y avoir d'autres restrictions à l'ouverture et au partage des données. Par exemple, votre jeu de données comporte-t-il des données confidentielles, des données protégées par le droit d'auteur, des données ayant un potentiel de valorisation commerciale ou encore des données qui enfreindraient un engagement préalable relatif au partage des données (par exemple, un accord de consortium, ...) ?

Pour les données qui ne présentent pas de restrictions, vous pouvez choisir les données à conserver en tenant compte de leur caractère unique, de leur valeur à long terme et de leur potentiel de réutilisation. Vous pouvez, par exemple, vouloir conserver certaines données pour valider les résultats de votre publication, pour l'enseignement ou de futures recherches. Toutefois, tenez compte également des coûts (temps, logiciels, etc.) et des efforts nécessaires pour préserver ces données (les étapes de préparation, de documentation, de stockage, ...).

En fonction de ces différents aspects, vous pouvez indiquer une période de conservation. Certaines données seront obsolètes dans 2, 5, 10 ou 50 ans, selon le sujet de recherche.

Le Digital Curation Center propose 5 étapes en vue de sélectionner les données *:

*(Whyte A., DCC, Five steps to decide what data to keep: a checklist for appraising research data (v.1), Edinburgh: Digital Curation Centre, 2014) 

Préparer les données sélectionnées en vue de la publication :

Pour que les données ouvertes (publiées en open data) soient utiles, c'est-à-dire réutilisables, il convient de les préparer. Plus particulièrement, il convient de les documenter, de choisir des formats de fichier ouverts (non-propriétaires) et d'ajouter des métadonnées.