Des données anonymes…ou pas !

Les données personnelles sont souvent partagées de manière anonyme. Mais on sait qu’il est possible de ré-identifier des personnes. Des chercheurs de l’ICTEAM viennent de mettre au point un modèle qui permet d’estimer avec précision la probabilité qu’une personne soit correctement identifiée.

L’utilisation d’Internet ou des applications mobiles génère des milliards de données. D’ordre démographique, social, médical ou économique, elles sont devenues une richesse et un matériau exploitable à la fois par les chercheurs mais aussi les entreprises. Au risque de violer le caractère privé de la vie de chacun. Certes, en Europe, le RGPD (Règlement général de protection des données) est censé protéger les citoyens. « Sauf que, explique Luc Rocher, aspirant FNRS et doctorant au sein de l’ICTEAM de l’UCLouvain, une donnée anonymisée ne requiert évidemment plus le consentement de la personne concernée ; le RGPD ne s’applique donc pas à ce type de données ». Or, elles sont largement utilisées pour partager des données à travers le monde.

Anonymisation

Quand un organisme dispose de données personnelles qu’il désire partager (c’est-à-dire, le plus souvent, les vendre à un utilisateur), il pratique ce qu’on appelle l’anonymisation de ces données. D’abord par dé-identification (les noms n’apparaissent pas et certains attributs sont éventuellement modifiés) et aussi par échantillonnage. Cette dernière technique consiste à ne livrer qu’une partie -par exemple 10%- des données à un même utilisateur. C’est même un argument opposable majeur en cas de ré-identification. Car on sait depuis quelques années déjà que ces précautions empêchent de moins en moins des journalistes ou des chercheurs d’identifier la personne qui se cache derrière les données prétendument anonymes. Ou du moins, ces ‘craqueurs’ d’anonymat étaient-ils plus ou moins persuadés de cela sans jamais en être totalement sûrs. Car les fournisseurs avaient jusqu’à aujourd’hui un argument massue à faire valoir : « vous prétendez avoir reconnu telle personne ; mais vous ne disposez que de 10% de mes données ; donc, qu’est-ce qui vous dit que dans les 90% restants -et plus généralement dans le reste de la population belge-, il n’y a pas une autre personne qui possède les mêmes caractéristiques ? » Imparable, en effet. Jusqu’à aujourd’hui. Car c’est ici qu’interviennent Luc Rocher et ses collègues, le Professeur Julien Hendrickx, lui aussi de l’ICTEAM et Yves-Alexandre de Montjoye, responsable du Computational Privacy Group à l’Imperial College de Londres.

Probabilité à 99,98%

« Ce que nous avons mis au point, explique Luc Rocher, c’est un modèle qui permet d’estimer si la ré-identification d’une personne est correcte ou pas. » Pour y arriver, les chercheurs ont développé un algorithme, qui muni d’une petite collection de données, une population de quelques milliers de personnes, apprend petit à petit quels attributs, quelles caractéristiques sont plus uniques, plus distinctifs que d’autres. Ainsi, un âge de 100 ans est évidemment plus caractéristique qu’un âge de 30 ans. « Ensuite, poursuit Luc Rocher, nous nous sommes penchés sur les corrélations qu’il peut y avoir entre ces attributs. Ainsi, ‘étudiant + 20 ans + Louvain-la-Neuve’, n’est guère discriminant. Alors que ‘étudiant + 60 ans + Louvain-la-Neuve’ l’est bien davantage car il y a peu d’étudiants de 60 ans sur le campus. Notre algorithme combine donc corrélation et distribution des attributs pour construire un modèle de la population qui permet de déterminer la probabilité pour qu’il existe par exemple dans la population belge deux hommes de 30 ans nés le 5 janvier 1989, habitant Schaerbeek, ayant deux filles et un chien, et conduisant une voiture rouge. Vraisemblablement, il n’y a presque aucune chance pour que cela se produise. Donc, si vous êtes parvenu à identifier une personne qui possède ces attributs, vous pouvez être certain que c’est bien la bonne personne, il n’y en a pas d’autre. »

Certain ? « Nous avons pu montrer, enchaîne Luc Rocher qu’aux USA -nous avons notamment travaillé sur des données américaines- 15 informations démographiques (âge, sexe, etc.) suffisent pour que la ré-identification soit possible dans 99,98% des cas ! A chaque fois, notre modèle a indiqué que la probabilité pour qu’il existe une autre personne que celle ré-identifiée, possédant les mêmes attributs, était quasi nulle. Or, il faut savoir que certaines données anonymes partagées en ligne contiennent plusieurs centaines d'attributs par personne ! » Les chercheurs louvanistes sont ainsi les premiers à avoir mis au point un modèle générique qui permet de certifier une identification dans n’importe quelle base de données.

D’autres techniques d’anonymisation

Le but des chercheurs n’est pas de faire en sorte que les partages de données soient interdits. La recherche scientifique comme l’économie numérique en ont besoin. « Nous préconisons plutôt de conserver les données dans des environnements sécurisés, d’utiliser des méthodes d’ingénierie de la vie privée. Les chercheurs ou les entreprises pourraient y accéder à distance, poser leurs questions mais le traitement serait localisé chez l’émetteur de la banque de données, l’utilisateur ne recevant que des résultats agrégés. De telles procédures existent déjà avec, par exemple, des données financières ou médicales, mais elles devraient devenir la norme », conclut Luc Rocher dont l'article sur la question fait la une ce mercredi 18 septembre sur le site The Conversation.

Henri Dupuis

Coup d’œil sur la bio de Luc Rocher

 

Les maths, Luc Rocher a toujours aimé cela. Il poursuit donc des études de mathématiques et d’informatique à l’Ecole Normale Supérieure de Lyon. Etudes au cours desquelles il est déjà attiré vers la recherche notamment lors de séjours au MIT (Massachusetts Institute of Technology). En 2015, il devient aspirant FNRS au sein de l’ICTEAM et poursuit une thèse de doctorat sur les limites de l’anonymisation des données personnelles et la recherche de meilleures techniques pour partager de telles données. Une thèse qu’il réalise sous la houlette des professeurs Julien Hendrickx (UCLouvain) et Yves-Alexandre de Montjoye, responsable du Computational Privacy Group à l’Imperial College de Londres.

 

Publié le 18 septembre 2019