Communiqué de presse - Recherche UCLouvain et Imperial College of London
En bref :
Article : https://www.nature.com/articles/s41467-019-10933-3 Outil de démonstration : https://cpg.doc.ic.ac.uk/individual-risk/ Contact(s) presse : |
Le contexte
Le big data (données médicales, comportementales, socio-démographiques) est de plus en plus conséquent et constitue une source d’informations inestimable, notamment pour les grandes entreprises. Mais la collection de ces données et leur partage soulève des questions éthiques : nos données sont-elles correctement protégées ?
Les organismes traitant des données sensibles ont principalement recours à l’anonymisation pour les partager ou les vendre. Ces techniques, appelées dé-identification, rendent, en théorie, les individus non-identifiables. Les données anonymes ne sont dès lors plus considérées comme des données personnelles et échappent aux régimes de protections des données comme le récent RGPD en Europe. Or, les chercheurs ont depuis longtemps démontré que certaines données anonymes peuvent être ré-identifiées. Le contre-argument des grandes sociétés et des gouvernements ? Les données émanant de petites bases de données sont toujours incomplètes. Du coup, selon eux, personne ne peut affirmer avec certitude si une ré-identification est correcte ou non, si c’est la bonne personne qui a été ré-identifiée.
La découverte : un bon algorithme retrouve n’importe qui
Une étude menée par l’UCLouvain et l’Imperial College London réfute cette hypothèse et démontre très clairement qu’un algorithme peut estimer, avec grande précision, si des données ré-identifiées appartiennent bien à la bonne personne ou non. Ces résultats sont publiés dans la revue scientifique Nature Communications.
L’algorithme développé évalue la probabilité pour une combinaison de caractéristiques connues d’être suffisamment précise pour décrire un seul individu parmi plusieurs milliards de personnes.
En utilisant cette méthode, les chercheurs de l’UCLouvain et d’Imperial College London ont montré que 99.98% des américains seraient correctement ré-identifiés dans n’importe quelle base de données en utilisant 15 attributs démographiques, avec des chiffres similaires à travers le monde (16 attributs en ajoutant la nationalité). « Beaucoup de personnes vivant à New York sont des hommes et ont la trentaine. Parmi elles, beaucoup moins sont également nées le 5 janvier, conduisent une voiture de sport rouge, ont deux enfants (des filles) et un chien », explique Luc Rocher, doctorant, aspirant FNRS au pôle en ingénierie mathématique de l’UCLouvain. Des informations plutôt standard, que les entreprises demandent régulièrement. Et qui permettent de ré-identifier les individus.
Après avoir appris quelles caractéristiques rendent les individus uniques, les algorithmes génèrent des populations synthétiques pour estimer si un individu peut se démarquer parmi des milliards de personnes. En Belgique, depuis 2017, certaines données médicales collectées par des hôpitaux sont revendues de manière anonyme. Le sont-elles vraiment ? C’est là tout l’intérêt du modèle développé par les chercheurs de l’UCLouvain et du Imperial College London, puisqu’il permet désormais de vérifier la réalité, ou non, de cet anonymat.
Ils ont également créé un outil en ligne, qui ne sauvegarde pas les données et sert uniquement à des fins de démonstration, pour aider les utilisateurs à comprendre quelles caractéristiques les rendraient uniques dans les bases de données : https://cpg.doc.ic.ac.uk/individual-risk/
Les chercheurs espèrent que leurs résultats permettront de mettre en place des standards plus rigoureux pour déterminer quelles données sont vraiment anonymes, prenant en compte tout risque futur.