Des chercheurs en informatique de UCLouvain développent un nouveau modèle mathématique révolutionnaire pour protéger la vie privée et garantir une utilisation plus sûre de l’IA.
L’anonymat est essentiel pour protéger la liberté d’expression et les droits numériques dans nos démocraties. Il repose sur l’absence d’identification, de surveillance ou de traçabilité des individus. Cependant, avec les avancées en puissance de calcul et en intelligence artificielle (IA), garantir cet anonymat devient de plus en plus difficile. Le Professeur Julien Hendrickx avec des anciens de UCLouvain, maintenant à l’Imperial College de Londres et à l’université d’Oxford, ont mis au point un nouveau modèle mathématique pour mieux comprendre les risques posés par l’IA et aider les régulateurs à protéger la vie privée des individus. Les résultats de cette étude sont publiés ce jeudi 9 janvier dans Nature Communications.
Dans un précédent article publié dans Nature Communications en 2019, les mêmes chercheurs avaient démontré que des informations partielles, comme des données démographiques (âge, code postal, genre), suffisaient pour ré-identifier une grande partie d’une base de données prétendument anonymisées. Ce travail avait révélé l'ampleur des risques liés à la diffusion de données sensibles, même après anonymisation.
Dans leur nouvel article publié dans Nature Communications, les auteurs proposent un modèle innovant qui évalue les performances des techniques d’identification à grande échelle, dans différents contextes d’application et de comportement.
Julien Hendrickx, co-auteur et professeur à l’UCLouvain, mentionne « Les méthodes actuelles ne permettent pas de tirer des conclusions à grande échelle sur base des résultats à petite échelle, c’est précisément ce que notre modèle, baptisé modèle de correction Pitman-Yor (PYC), permet ».
Ce modèle s’appuie sur les statistiques bayésiennes pour apprendre à quel point les individus sont similaires, et extrapoler la précision de l’identification à des populations plus importantes, avec une performance jusqu’à 10 fois supérieure aux heuristiques et règles empiriques précédentes. Ce travail fournit, pour la première fois, un cadre scientifique robuste permettant d’évaluer les techniques d’identification, notamment pour les données à grande échelle.
Les chercheurs pensent que leur méthode peut aider à mieux comprendre les risques posés par l’IA et permettre aux régulateurs de mieux protéger la vie privée des citoyens. En effet, bien que des réglementations comme le Règlement Général sur la Protection des Données encadrent strictement l’utilisation et le partage des données personnelles, les données anonymisées échappent à ces restrictions. Le risque de ré-identification est donc critique avec des enjeux sociétaux.
Yves-Alexandre de Montjoye, ingénieur de l’UCLouvain, co-auteur et professeur associé à l’Imperial College London, mentionne :
«Comprendre l’évolutivité de l’identification est essentiel pour évaluer les risques posés par ces techniques de ré-identification, notamment pour garantir la conformité avec les législations modernes sur la protection des données dans le monde entier. »
Par exemple, dans des études médicales, le modèle mathématique peut aider à déterminer si des informations sur des patients pourraient être utilisées pour retrouver leur identité. Dans des contextes tels que les hôpitaux, la distribution d’aide humanitaire ou le contrôle aux frontières, les enjeux sont extrêmement élevés, et il est crucial de disposer de systèmes d’identification précis et fiables.Dans leur article, les chercheurs montrent également les impacts concrets que leur méthode pourrait avoir dans la vie quotidienne. Par exemple, en surveillant la précision des codes publicitaires et des trackers invisibles qui identifient les utilisateurs en ligne à partir de petits détails, comme le fuseau horaire ou les paramètres de navigateur, une technique appelée "empreinte digitale de l’appareil".
Ils expliquent également comment cette méthode pourrait aider les organisations à trouver un meilleur équilibre entre les avantages des technologies d’IA et la nécessité de protéger les données personnelles des individus, rendant les interactions quotidiennes avec la technologie plus sûres et plus sécurisées.
Luc Rocher, ancien Doctorant de l’UCLouvain et maintenant à l’université d’Oxford conclut :
« Nous pensons que ce travail constitue une étape cruciale vers le développement de méthodes rigoureuses pour évaluer les risques posés par les techniques d’IA de plus en plus avancées et la nature de l’identification des traces humaines en ligne. Nous espérons que ce travail sera d’une grande aide aux chercheurs, responsables de la protection des données, membres de comités d’éthique et autres praticiens qui cherchent à équilibrer le partage de données pour la recherche et la protection de la vie privée des patients, des participants et des citoyens. »
A propos de la recherche
Ce travail a été soutenu par plusieurs subventions : la Royal Society Research Grant RG\R2\232035 attribuée à Luc Rocher, le John Fell OUP Research Fund, la UKRI Future Leaders Fellowship [grant MR/Y015711/1], ainsi que par le F.R.S.-FNRS. Yves-Alexandre de Montjoye reconnaît également un financement de la part de l’Information Commissioner’s Office.
Les financeurs n’ont joué aucun rôle dans la conception de l’étude, la collecte et l’analyse des données, la décision de publier ou la rédaction de l’article.
Luc Rocher, Maître de conférences en sciences des données sociales à l’Université d’Oxford, au sein de l’Oxford Internet Institute
https://www.oii.ox.ac.uk/people/profiles/luc-rocher/
Il a obtenu son doctorat en 2019 à l’Université catholique de Louvain et a travaillé comme chercheur au Data Science Institute et au Computational Privacy Group de l’Imperial College London, à l’ENS de Lyon, et au MIT Media Lab.
Il se spécialise dans les approches de modélisation computationnelle à grande échelle pour étudier les nouveaux défis des sociétés algorithmiques. Formé en informatique et en sciences sociales computationnelles, il s’intéresse à l’avenir de la vie privée, des droits numériques et à la gouvernance des algorithmes sur les plateformes numériques. Ses recherches apportent des recommandations techniques face aux défis que l’intelligence artificielle pose pour le droit de la concurrence sur les plateformes numériques et la régulation de la protection des données en ligne. Par exemple, il a démontré les limites des techniques traditionnelles visant à anonymiser et partager largement des données prétendument « anonymes » en ligne, soulignant la nécessité de cadres mieux adaptés pour préserver la vie privée tout en analysant les données personnelles.
Ses travaux ont été publiés dans des revues et conférences à comité de lecture (Nature Communications, Nature Scientific Data, Usenix Security, JMLR, WWW) et font régulièrement l’objet d’articles dans la presse (New York Times, The Guardian, The Telegraph, Forbes, El País, Scientific American). Ils ont également été présentés dans des émissions de la BBC World Service, France TV, RTBF TV et Radio, ainsi que Radio Canada.
Il dirige l’Observatoire de l’Anonymat, un site web interactif accessible dans 89 pays, où les visiteurs peuvent découvrir les facteurs qui les rendent plus vulnérables à la ré-identification et où les chercheurs peuvent tester l’anonymat des données issues de leurs recherches.
Julien M. Hendrickx, Professeur à l’Université catholique de Louvain
https://perso.uclouvain.be/julien.hendrickx/
Julien M. Hendrickx a obtenu un diplôme d’ingénieur en mathématiques appliquées en 2004 et un doctorat en génie mathématique en 2008 à l’Université catholique de Louvain (UCLouvain), Belgique. Il y a rejoint l’École Polytechnique de Louvain comme professeur assistant en 2010, avant de devenir professeur associé en 2013, professeur en 2018 et enfin professeur ordinaire en 2023.
Il a également mené une carrière internationale, notamment en tant que chercheur invité à l’Université de l’Illinois à Urbana-Champaign, au National ICT Australia, et au Massachusetts Institute of Technology (MIT) et a été chercheur postdoctoral au Massachusetts Institute of Technology en 2009-2010 et boursier de la B.A.E.F. En 2018-2019, il a été chercheur résident au Center for Information and Systems Engineering de l’Université de Boston grâce à une bourse d’excellence WBI.World.
Julien M. Hendrickx joue un rôle actif dans la formation et l’entrepreneuriat. Il est coordinateur du programme Startech de l’UCLouvain, qui aide les étudiants à développer leurs compétences entrepreneuriales. Il a également dirigé le département d’ingénierie mathématique de l’institut ICTEAM (2015-2018) et le master en ingénierie mathématique (2019-2023), avant de devenir responsable de l’institut ICTEAM en 2023.
Parmi ses distinctions, il a reçu le prix EECI 2008 pour la meilleure thèse européenne dans le domaine des systèmes embarqués et connectés, ainsi que le prix Alcatel-Lucent-Bell 2009 pour une thèse introduisant des concepts novateurs en technologies de l’information.
Avec une expertise reconnue et un parcours mêlant recherche de pointe, pédagogie et engagement international, Julien M. Hendrickx est une figure centrale du génie mathématique et des technologies numériques.
Yves-Alexandre de Montjoye, Professeur associé en mathématiques appliquées et informatique à Imperial College London.
https://demontjoye.com/index.html
Il dirige le Computational Privacy Group à l’Imperial College de Londres. Actuellement, il est conseiller spécial sur l’IA et la protection des données auprès du commissaire européen à la justice et expert désigné par le Parlement auprès de l’Autorité belge de protection des données. En 2018-2019, il a été conseiller spécial de la commissaire européenne Margrethe Vestager, pour qui il a co-rédigé le rapport Competition Policy for the Digital Era. Il est affilié au Data Science Institute et au Department of Computing d’Imperial College.
Auparavant, il a été chercheur postdoctoral à Harvard, où il a collaboré avec Latanya Sweeney et Gary King, et a obtenu son doctorat au MIT sous la direction d’Alex "Sandy" Pentland.
Ses recherches explorent comment l’unicité des comportements humains affecte la vie privée dans les bases de données de métadonnées à grande échelle. Ses travaux ont été cités dans des publications comme The New York Times, BBC News, CNN, Wall Street Journal, Le Monde, Die Spiegel, et El País, ainsi que dans des rapports du Forum économique mondial, des Nations Unies, de l’OCDE, de la FTC, et de la Commission européenne. Récemment, il a rédigé un rapport pour le Brookings Institute sur l’utilisation et la confidentialité des métadonnées, ainsi que des tribunes pour le World Economic Forum, le Christian Science Monitor, et Le Monde.
Il a travaillé pour le Boston Consulting Group, agi comme expert pour la Fondation Bill et Melinda Gates et les Nations Unies, et a été nommé Innovator Under 35 pour la Belgique (TR35). Il est membre des fondations ID³ et B.A.E.F., ainsi que chercheur associé chez Data-Pop Alliance.