Qu’est-ce que la confidentialité différentielle ? Comment protège-t-il vos données ?
Lorsque les systèmes sont conçus pour être différentiellement privés, ils permettent aux entreprises de collecter les données dont elles ont besoin pour entraîner leurs algorithmes, tout en contribuant à préserver l'anonymat des personnes concernées. . À mesure que les préoccupations en matière de protection de la vie privée grandissent, la confidentialité différentielle pourrait devenir un concept clé dans la manière dont nos sociétés sortent de l’ère actuelle de surveillance invasive.
Si la collecte de données auprès des grandes entreprises technologiques vous inquiète, la bonne nouvelle est que des concepts tels que la confidentialité différentielle commencent à prendre de l’importance. Dans certaines situations, la confidentialité différentielle peut contribuer à nous protéger en offrant un compromis entre les intérêts des personnes et ceux des collecteurs de données .
Le rôle plus large de la confidentialité différentielle
La confidentialité différentielle est en réalité une idée beaucoup plus large qui peut être appliquée dans une multitude de domaines en dehors des algorithmes de formation. Il a été développé en réponse aux problèmes de confidentialité dans l’analyse des données. Dans des circonstances normales, si vos données sont incluses dans une base de données, cela peut entraîner des violations de votre vie privée.
Même si vos données ont été anonymisées et vos identifiants supprimés, elles conservent la possibilité d'être reconnectées à votre identité grâce à une analyse statistique. L’idée sous-jacente à la confidentialité différentielle est que vous ne pouvez pas violer la vie privée d’une personne si ses données ne sont pas dans la base de données .
Dans cette optique, la confidentialité différentielle vise à accorder aux individus inclus dans une base de données le même degré de confidentialité que si leurs données étaient complètement exclues. Un système est différentiellement privé lorsque le les données sont structurées de telle manière que vous ne pouvez pas savoir si un sujet particulier a participé ou non.
Si quelque chose remplit cette exigence, les données ne peuvent pas être reliées aux individus, ce qui protège leur vie privée. En ce sens, la confidentialité différentielle est en réalité une définition plutôt qu’une technique.
Cynthia Dwork , l'un des chercheurs qui ont introduit le terme, a décrit la confidentialité différentielle comme une promesse du détenteur des données à la personne concernée, que :
'Vous ne serez pas affecté, négativement ou autrement, en autorisant l'utilisation de vos données dans une étude ou une analyse, quelles que soient les autres études, ensembles de données ou sources d'informations disponibles.'
L’une des idées fausses les plus répandues est que la confidentialité différentielle est une technique spécifique. Ce n’est pas le cas – il y en a beaucoup. Lorsque les entreprises parlent de confidentialité différentielle, elles ne le font pas.en utilisantconfidentialité différentielle, ils utilisent diverses techniques pour s'assurer que les donnéesestdifférentiellement privé.
Par exemple, dans les algorithmes de suggestion de mots et d’emojis d’Apple, la société a mis en place un système qui ajoute du bruit à ce que les utilisateurs tapent pour garder les informations privées. En supposant qu’il n’y ait aucune faille dans le système, la base de données est différentiellement privée.
La confidentialité différentielle est obtenue grâce à une série de techniques complexes qui impliquent de nombreuses statistiques. Essentiellement, ils ajoutent une quantité calculée de bruit (données aléatoires) à la base de données. Cela obscurcit la relation entre l’individu et les points de données, mais comme cela est effectué de manière contrôlée, les données restent suffisamment précises pour être utiles dans de nombreuses situations.
La quantité de bruit nécessaire dépendra du nombre de personnes dans la base de données. Pour préserver la confidentialité des informations individuelles, la base de données ne peut pas trop dépendre d’une seule personne. Moins il y a de personnes dans une base de données, plus il faut ajouter de bruit pour les protéger.
Nous vous épargnerons la surcharge mathématique pour rendre cet article plus digeste et plus facile à comprendre, mais vous pouvez consulter l'article de Dwork lié ci-dessus si vous souhaitez jeter un œil aux fondements mathématiques de la confidentialité différentielle.
Si vous êtes déjà un peu dépassé, ne vous inquiétez pas, car nous allons commencer par prendre quelques pas en arrière. Tout d’abord, nous examinerons la confidentialité et les données dans un sens plus général. Nous aborderons ensuite la confidentialité différentielle à un niveau plus approfondi, avant de nous concentrer sur la manière dont elle peut être utilisée dans l’apprentissage automatique pour une analyse de données moins invasive.
Nous examinerons le potentiel différentiel de confidentialité dans l’apprentissage automatique, ses applications actuelles, ainsi que ses limites. Au moment où vous aurez terminé, vous devriez avoir une bonne compréhension de ses ramifications dans le monde réel sans avoir à vous noyer dans les mathématiques qui se cachent derrière.
Première case : données et confidentialité
Les données sont bonnes – du moins dans certaines situations. Cela nous aide à comprendre ce qui se passe réellement et nous permet de prendre de meilleures décisions pour l’avenir. Sans sa collecte et son analyse, nous n’aurions réalisé aucun progrès scientifique et le monde serait bien plus chaotique.
Disons que votre pays planifie comment dépenser son budget l’année prochaine. Selon vous, qu’est-ce qui pourrait conduire à des résultats meilleurs et plus équitables :
- S'il planifiait sa distribution selon un mélange de conjectures et d'intuitions ; ou
- S'il planifiait sa distribution sur la base de la collecte et de l'analyse détaillées d'informations, y compris le nombre de personnes, où elles se trouvaient, leur âge, leurs revenus, leur niveau d'éducation et bien d'autres aspects.
Si vous avez choisi la deuxième option, félicitations, vous venez d’inventer les recensements, qui ne sont qu’un exemple de la manière dont l’analyse des données peut contribuer à améliorer nos vies. Les recensements impliquent la collecte et l'analyse de données, que les gouvernements utilisent ensuite pour une série de tâches, y compris l’allocation des ressources. Comme vous pouvez probablement le deviner, ils sont capables de faire un bien meilleur travail avec ces informations que sans elles.
Concrètement, cela signifie que toutes les quelques années, la plupart d’entre nous remplissent un questionnaire très détaillé et l’envoient au gouvernement. Mais cela pourrait potentiellement porter atteinte à la vie privée de ceux qui y répondent, ce qui pourrait entraîner de graves conséquences.
Il n’est pas déraisonnable que les individus se méfient des recensements, d’autant plus que le monde prend lentement conscience de la collecte massive de données et des atteintes à la vie privée qui sont si répandues. Mais les recensements nous offrent également des informations incroyablement précieuses, qui sont importantes pour les succès futurs de nos pays.
Cela nous laisse dans une énigme. Participer au recensement pourrait entraîner des violations de la vie privée, mais si tout le monde rejette le recensement, nous perdrons toutes ces informations précieuses.
Un bureau de recensement compétent dissipera ces craintes en introduisant des mécanismes de sécurité et de confidentialité qui contribuent à protéger les informations individuelles. , tout en nous donnant un aperçu de l'ensemble des groupes. Lorsqu’il est bien fait, c’est un bon compromis.
Le seul
Disons qu’une petite ville forestière et agricole mène son propre petit recensement. Il souhaite découvrir quelles industries rapportent le plus d’argent à la ville afin de savoir dans quels domaines se développer et lesquels ont besoin du soutien du gouvernement.
La mairie demande à chaque entreprise de répondre à une enquête qui comprend des questions sur les revenus et bien d'autres détails. La plupart des entreprises sont heureuses de partager car elles savent que ces informations aideront la ville ainsi que leurs propres entreprises. . Ils font également confiance à la ville pour rassembler les informations et supprimer leurs identifiants, en gardant les données anonymes.
Si les données sont collectées et moyennées avant d’être rendues publiques, les agriculteurs et les scieries n’auront plus à craindre que quiconque en ville découvre combien d’argent ils gagnent. Les chiffres individuels se perdront dans les moyennes à cause du grand nombre d'agriculteurs et d'exploitants forestiers.
Et si vous possédiez le seul hôtel de la ville ? Disons que cela a généré 500 000 $ de revenus. Si la ville collecte et fait la moyenne des chiffres de l'industrie hôtelière, puis les publie dans un graphique aux côtés de toutes les autres industries, le graphique indiquera que l'industrie hôtelière a réalisé un chiffre d'affaires de 500 000 $.
Maintenant, les gens de la ville se rendront compte que il n'y a qu'un seul hôtel, ils peuvent donc en déduire que l'hôtel a réalisé 500 000 $ de revenus . S’il n’y a qu’un seul élément, les données individuelles ne peuvent pas être perdues dans la moyenne.
C’est un problème, car les entreprises privées ne sont normalement pas tenues d’annoncer publiquement leurs états financiers. En tant que propriétaire, vous ne voulez peut-être pas que le reste de la ville sache combien vous avez gagné.
Il vous reste le choix entre mentir à la ville et fausser les chiffres, conduisant peut-être à de moins bonnes décisions ou à porter atteinte à votre propre vie privée .
Bien sûr, ce n’est pas une bonne situation. Ce que nous venons de démontrer montre comment Même lorsque les données ont été anonymisées et leurs identifiants supprimés, elles ne sont peut-être pas vraiment aussi anonymes après tout.
Si la statisticienne de la ville était suffisamment avisée, elle pourrait prendre certaines mesures pour protéger votre vie privée en tant que propriétaire de l'hôtel. Elle pourrait simplement laisser l'industrie hôtelière en dehors de la publication, ou peut-être intégrer l'industrie hôtelière à un groupe d'autres entreprises et titrer les résultats. industries diverses .
En tant que propriétaire d'hôtel, vous voudriez savoir exactement comment les statistiques seront utilisées avant de remplir l'enquête afin que votre vie privée ne soit pas violée.
Comparer deux ensembles de données
Prenons un autre exemple de la façon dont des données individuelles peuvent être exposées même lorsqu’elles ont été anonymisées. Supposons qu’une entreprise publie un rapport annuel incluant le coût total des salaires pour chaque département.
Si le département du zoo pour enfants disposait d'un budget salarial de 1 000 000 $ en 2019 et qu'il était partagé entre 20 employés, tout ce que vous pouvez vraiment dire à partir de ces données, c'est que le salaire moyen était de 50 000 $. Vous ne savez pas combien gagnait le manager ni à quel point certains employés étaient sous-payés.
Maintenant, disons qu’au moment où le rapport 2020 est paru, il n’y avait pas eu d’augmentation de salaire, mais le fils d’un dirigeant d’entreprise avait été attaché au département en tant que directeur adjoint, dont le rôle principal semblait être de prendre de longs déjeuners arrosés.
Si le nouveau budget pour les salaires était de 1 200 000 $ et qu’aucune augmentation n’avait été accordée, qu’est-ce que cela nous dit ? Que le fils, peut-être alcoolique, gagne 200 000 $ pour ne rien faire.
Comme vous pouvez le constater, cela démontre une autre façon de découvrir des informations sensibles à partir de données prétendument anonymes. Étant donné que les autres membres du département seraient indignés s’ils le découvraient, il est dans l’intérêt de la direction de l’entreprise d’empêcher d’une manière ou d’une autre que ces informations soient extraites des données.
Apprentissage automatique
La plupart des publicités récentes concernant la confidentialité différentielle a été dans la sphère de l'apprentissage automatique, c'est donc sur cela que nous allons nous concentrer . Tout d’abord, nous devons aborder certaines bases.
Selon l'écrivain de science-fiction Arthur C.Clarke , Toute technologie suffisamment avancée est indiscernable de la magie. Il a publié cette loi pour la première fois dans les années 1970, et il est facile de croire que si vous transportiez quelqu'un de cette période jusqu'à nos jours, il crierait à la sorcellerie ou à la supercherie face à certains de nos développements technologiques.
Nous avons nos fils d'actualités constamment mis à jour et parfaitement organisés qui nous divertissent. Des applications de réacheminement du trafic comme Waze qui semblent connaître comme par magie le moyen le plus rapide de traverser une ville, et nous pouvons trouver toutes les informations que nous voulons en quelques simples pressions sur le clavier.
Toutes ces tâches sont complétées par des algorithmes , qui sont bien plus ennuyeux que la magie. Les algorithmes sont essentiellement des ensembles d'instructions ou de formules qui calculent le résultat souhaité ou résolvent un problème. .
Nos vies en sont pleines – de Twitter à votre filtre anti-spam, en passant par la recherche de vols. À moins que vous ne soyez un Luddite ou que vous fassiez tout votre possible pour éviter les algorithmes, une grande partie de vos informations et bon nombre de vos décisions de vie sont probablement prises avec leur aide. D'une certaine manière, les algorithmes contrôlent nos vies.
Cette configuration présente de nombreux avantages : elle facilite la sélection d'un restaurant et trouver une adresse est beaucoup plus simple aujourd'hui qu'à l'époque des cartes. Malgré ces avantages, les algorithmes nous laissent également ouverts à la manipulation et à d’autres effets négatifs, mais ces sujets sortent un peu du cadre de cet article.
Ce qui nous préoccupe davantage, c’est la façon dont ces algorithmes parviennent à des résultats aussi précis et comment ils s’améliorent constamment.
Pourquoi utilisons-nous l’apprentissage automatique pour améliorer les algorithmes ?
Une partie importante du processus se fait via l'apprentissage automatique, qui est un domaine de la sphère de l'intelligence artificielle . Sous apprentissage automatique, les données sont collectées et analysées, les algorithmes prenant ce qu'ils apprennent et modifiant ensuite leurs processus pour accomplir leurs tâches plus efficacement.
Ce qui est impressionnant avec ce type d’intelligence artificielle, c’est que les algorithmes d’apprentissage automatique peuvent s’améliorer eux-mêmes et améliorer leurs résultats sans avoir besoin de programmation externe d’un développeur humain.
Pour donner un exemple simple, disons qu’une entreprise créant une application de chat souhaite que ses emojis soient placés aux endroits les plus pratiques pour les utilisateurs. Premièrement, il lui faudrait un algorithme pour compter quels sont les algorithmes les plus couramment utilisés, afin de pouvoir placer ceux qui sont fréquemment utilisés dans les positions les plus faciles.
L’utilisation des emoji peut changer avec le temps, de sorte que ce qui était autrefois un emoji bien placé peut finir par être à peine touché. Si cela se produit, cela prend simplement de la place et rend la tâche de l’utilisateur beaucoup plus longue à accomplir.
Si l'entreprise souhaite faciliter au maximum la vie de ses utilisateurs, il utilisera un algorithme d'apprentissage automatique pour collecter des données sur ces tendances, les analyser, puis mettre à jour le placement pour vous assurer que les emojis populaires actuels sont faciles à atteindre.
Vous ne vous souciez peut-être pas beaucoup des emojis, mais qu’en est-il de vos résultats de recherche ? Lorsque vous cherchiez quelque chose sur Google il y a 15 ou 20 ans, vous deviez souvent parcourir des pages et des pages de résultats ou essayer un certain nombre de termes de recherche différents pour obtenir ce que vous vouliez vraiment. En comparaison, il est étonnant de constater à quel point les résultats actuels sont précis.
Qu’en est-il des moteurs de saisie prédictive sur votre téléphone ? Si vous vous souvenez de l’époque où les plates-formes commençaient à suggérer le mot suivant, c’était beaucoup moins utile que Gboard ou le clavier de l’iPhone ne le sont aujourd’hui. De nos jours, la technologie peut capter davantage le contexte de ce que vous tapez, ce qui la rend assez efficace pour prédire le mot correct.
Si vous appréciez la facilité et la simplicité de ces technologies, vous le devez grâce aux algorithmes d’apprentissage automatique. Si vous appréciez la facilité et la simplicité de ces technologies, vous le devez grâce aux algorithmes d’apprentissage automatique. Mais la collecte de données n’est pas toujours aussi bienveillante et peut parfois nuire aux sujets en conduisant à la cybercriminalité ou à une surveillance invasive de la part des collecteurs de données.
Si les préjudices pouvant découler de ces pratiques peuvent sembler évidents, les dangers liés aux données anonymisées sont plus subtils.
Netflix « anonymise » les données des utilisateurs
Nouvelle icône Netflix par Netflix Inc. sous licence CC0 .
Prenons un exemple concret qui montre à quel point le problème peut être grave. À la fin des années 2000, le service de streaming vidéo Netflix a pensé que ce serait une bonne idée d'externaliser une partie de son développement au public, et a lancé un concours pour voir si quelqu'un pouvait proposer un meilleur algorithme pour recommander des films aux utilisateurs .
Pour faciliter la compétition, Netflix a dévoilé un prix de 1 000 000 $ et a publié un certain nombre de ses données. Cela comprenait plus de 100 millions d’écoutes de films compilées par près d’un demi-million d’abonnés de la société.
Dans une FAQ, Netflix a assuré à ses utilisateurs que il n'était pas nécessaire de garder les données de ces versions privées car «… toutes les informations d'identification des clients ont été supprimées ; il ne reste plus que les notes et les dates. Cela semble être une bonne chose, comme si l'entreprise essayait réellement de protéger ses utilisateurs, plutôt que d'aller de l'avant avec un mépris flagrant pour leur vie privée.
Malheureusement pour Netflix, il n’y a pas pensé la suppression des données d'identification ne rend pas nécessairement les données véritablement anonymes . Deux chercheurs de l'Université d'Austin a commencé à enquêter sur la concurrence en partant du principe qu'il suffirait d'une petite quantité d'informations pour désanonymiser les données et identifier les utilisateurs.
En utilisant des statistiques complexes, ils ont découvert que ils pourraient désanonymiser 99 % des enregistrements avec seulement quelques points de données . Tout ce dont les chercheurs avaient besoin, c'était de huit classements de films distincts et des dates de visionnage. Ce niveau de précision expliquait même une erreur de 14 jours lors du visionnage des films, ainsi que la possibilité que deux des classements soient complètement faux.
Ils ont également constaté que avec seulement deux paires de notes et de dates, ils pourraient désanonymiser 68 % des enregistrements , bien que dans ce cas, l'erreur de temps puisse être d'un maximum de deux jours.
Essentiellement, presque toute la base de données pourrait être mise en correspondance avec l’identité des personnes figurant dans la publication des données. Tout ce que les chercheurs avaient à faire, c'était de savoir quand les personnes concernées avaient regardé huit films et quels étaient ces films.
Ce type d'informations n'est pas si difficile à trouver : un collègue ou un supposé ami pourrait facilement extraire des informations sur le moment où vous avez regardé huit films distincts au cours d'une conversation informelle. . Vous ne penseriez même pas qu’ils préparaient quelque chose de néfaste. Ce n’est pas comme s’ils vous demandaient les détails de votre carte de crédit, c’est juste une conversation normale et informelle.
Les mauvais acteurs pourraient également facilement trouver ces informations via IMDb. , si la cible a utilisé les deux services. Il est probable que les notes d’un individu sur IMDb soient similaires à celles sur Netflix, ce qui faciliterait la désanonymisation des données.
Passons maintenant à la question clé : Pourquoi quelqu’un devrait-il se soucier de la correspondance de son historique Netflix avec son identité – ce ne sont que des films, n’est-ce pas ?
Comme les chercheurs l'ont noté dans un exemple de leur article, lorsqu'ils ont enquêté sur les évaluations d'un utilisateur, ils ont pu déduire ses opinions politiques et religieuses , basé sur ses partitions de films tels quePouvoir et terreur : Noam Chomsky à notre époque, etFahrenheit 9/11, ouJésus de NazarethetL'Évangile de Jean, respectivement.
Il est également probable que vous trouviez de fortes corrélations entre l’audience d’une personne et sa sexualité, ou sur un certain nombre d’autres aspects de notre vie que beaucoup de gens aiment garder privés.
Comme les chercheurs l’ont si judicieusement souligné :
Le problème n’est pas « L’abonné Netflix moyen se soucie-t-il de la confidentialité de son historique de visionnage de films ? », mais « Existe-t-il des abonnés Netflix dont la confidentialité peut être compromise par l’analyse de l’ensemble de données du Prix Netflix ? »
La réponse est clairement oui, car les chercheurs ont montré qu’ils pouvaient déduire plusieurs types d’informations sensibles uniquement à partir de l’historique Netflix de la personne.
Il ne s’agit pas seulement de preuves académiques, il s’agit d’une attaque pratique que les acteurs malveillants peuvent utiliser pour découvrir des informations privées sur des individus, même si une base de données est censée être anonymisée. Netflix a même été poursuivi en justice et réglé une affaire sur la question.
Le problème sous-jacent s’étend bien au-delà de Netflix et des films. Des volumes terrifiants de données sont collectées sur nous, et elles sont souvent anonymisées soit pour un stockage plus sécurisé, soit pour qu'elles puissent être rendues publiques à diverses fins.
Mais que se passerait-il si quelque chose comme votre dossier médical avait été anonymisé, puis rendu public ou consulté par un pirate informatique ? Si les données pouvaient être anonymisées comme dans l’exemple de Netflix, cela briserait complètement votre vie privée et pourrait conduire à une multitude de crimes commis contre vous, comme le vol d’identité ou la fraude à l’assurance.
La collecte de données doit-elle être dangereuse ?
Nous ne pouvons nier que les algorithmes sont pratiques et offrent de nombreux avantages. Il est néanmoins raisonnable de s’inquiéter de leurs inconvénients potentiels. La bonne nouvelle est que dans certaines situations, nous pouvons bénéficier des avantages de la collecte de données et des algorithmes d’apprentissage automatique, sans violations invasives de notre vie privée.
Pour rendre à César ce qui appartient à César, de nombreuses mesures prometteuses ont été prises ces dernières années par de grandes entreprises en matière de réforme de la protection de la vie privée, même s’il reste encore un long chemin à parcourir. L'une de ces techniques est connue sous le nom de apprentissage fédéré , et bien sûr, nous avons également notre objectif principal, la confidentialité différentielle .
Détournement à travers les sciences sociales : la technique de réponse aléatoire et la confidentialité différentielle
La façon la plus simple d’expliquer les différences en matière de confidentialité est d’envisager quelque chose qui en est essentiellement une version beaucoup plus simple. C’est ce qu’on appelle la technique de réponse aléatoire.
Si les scientifiques enquêtent sur un sujet sensible, par exemple sur les antécédents criminels ou sexuels des individus, comment peuvent-ils être assurés que les individus seront honnêtes dans leurs enquêtes ? Pour une multitude de raisons, beaucoup d'entre nous ne veulent pas dire la vérité sur des questions aussi privées à une personne au hasard en blouse de laboratoire.
Nous ne voulons pas d’enregistrements permanents de nos moments intimes ou de nos indiscrétions, et nous ne sommes pas non plus à l’aise de dire à quelqu’un que nous venons de découvrir nos secrets les plus sombres. Cela rend extrêmement difficile la collecte de données dans ces zones sensibles.
En 1965, S. L. Warner propose une solution. Disons qu’il voulait savoir si des gens avaient déjà volé des bonbons à un bébé. Honteux de leurs actes, Warner savait qu’il ne pouvait pas se fier à leurs réponses.
Si 99 personnes sur 100 le niaient, était-ce la vraie vérité ? Comment pouvait-il déterminer quel pourcentage de personnes mentaient ?
Il ne l’a pas fait. Plutôt, Warner a trouvé un moyen d'aider les gens à être plus à l'aise pour dire la vérité . La technique de réponse randomisée a été étendue à un certain nombre de méthodes différentes au cours des années suivantes. L’une des plus simples consiste à lancer des pièces de monnaie.
Un chercheur approchera une personne et lui expliquera ce qu’elle fait. Ils disent au participant qu'ils vont leur poser une question sensible, mais que pour protéger leur vie privée, ils demanderont d’abord au répondant de lancer une pièce de monnaie et de garder le résultat caché au chercheur. .
Si le répondant retourne la tête, il doit répondre oui, quelle que soit la vraie réponse. S’il tombe sur pile, ils doivent répondre honnêtement.
Lorsque le chercheur pose la question « Avez-vous déjà volé des bonbons à un bébé ? » et que la personne interrogée répond « Oui », le chercheur n'a aucun moyen de savoir si l'enquêté a réellement volé des bonbons à un bébé.
La personne interrogée peut dire oui parce que les règles l’exigent, ou bien elle peut admettre la vérité. En théorie, cela protège le défendeur, ils devraient donc être plus disposés à dire la vérité lorsqu’ils sont confrontés à des questions sensibles.
Disons que le chercheur a obtenu 100 réponses à la question, dont 75 « Oui ». Connaissant la répartition 50/50 d’un tirage au sort, ils peuvent en déduire que 50 des « oui » étaient le résultat de face, tandis que les 25 restants provenaient de personnes qui répondaient honnêtement. Puisque 25 personnes ont honnêtement répondu « non », les chercheurs peuvent donc conclure que 50 % des personnes volent des bonbons aux bébés.
Cette méthode repose sur quelques hypothèses, et les résultats ne sont pas très précis en sciences sociales, c’est pourquoi d’autres techniques sont souvent utilisées à la place. Mais ce n’est pas le sujet.
Le principal point à retenir est que le tirage au sort est un moyen simple d'injecter des données aléatoires (les têtes forcées) dans la base de données, ce qui protège les informations fournies par les répondants.
Les personnes interrogées n’ont pas à craindre que leurs informations soient utilisées à mauvais escient ou rendues publiques, car elles disposent d’un déni plausible. Même s’ils répondent honnêtement qu’ils sont de méchants voleurs de bonbons, cela n’a pas d’importance.
Personne qui lit les résultats de l'enquête ne sera en mesure de dire s'il fait réellement partie des voleurs de bonbons ou s'il a simplement été obligé de répondre oui. basé sur le tirage au sort.
Essentiellement, c’est ainsi que fonctionnent les techniques de confidentialité différentielles. Cependant, ils sont beaucoup plus complexes et sont capables de donner des résultats plus précis qu’un simple tirage au sort.
Si vous n’êtes pas enclin aux mathématiques, vous pouvez considérer les algorithmes de confidentialité différentiels que nous utilisons réellement comme des versions extrêmement compliquées de ce qui précède. Si tel est le cas, vous pouvez vous régaler de certaines des équations de cet article en Carole Dwork .
Quoi qu’il en soit, la théorie de base tient toujours – si nous ajoutons du caractère aléatoire aux données, nous pouvons protéger les informations privées des individus, tout en disposant d'un ensemble de données utiles que nous pouvons analyser.
Modèles de confidentialité différentielle
Les algorithmes différentiellement privés ont le potentiel de protéger nos données tout en permettant un apprentissage automatique raisonnablement précis. Deux des modèles les plus courants incluent la confidentialité différentielle globale et la confidentialité différentielle locale.
Confidentialité différentielle mondiale
Dans le cadre du modèle mondial de confidentialité différentielle, les données brutes des individus sont collectées et analysées par un organisme central, qui est souvent une entreprise technologique. Les algorithmes de confidentialité différentielle sont appliqués aux données dans leur ensemble . Bien que les informations privées ne soient jamais rendues publiques, elles ont été collectées quelque part sous leur forme brute.
Cela ne doit pas être trop préoccupant si l’organisation est fiable et dispose de niveaux de sécurité élevés. Cependant, si l’une ou l’autre de ces conditions n’est pas remplie, la confidentialité différentielle ne peut pas assurer la sécurité des informations individuelles.
Si l’entreprise publie publiquement la base de données différentiellement privée, vos informations ne pourront pas en être anonymisées. Cependant, le modèle global permet à l'entreprise d'utiliser à mauvais escient vos données brutes. Les pirates peuvent également accéder aux données brutes et utiliser vos informations privées pour commettre toute une série de crimes.
Confidentialité différentielle locale
Contrairement à la confidentialité différentielle mondiale, la confidentialité différentielle locale commence par l'hypothèse que vous ne pouvez faire confiance à aucune partie avec vos informations personnelles brutes . Au lieu de transférer vos données personnelles brutes vers un serveur central pour analyse, vous souhaitez conserver vos données pour éliminer la possibilité qu'elles soient exposées ou utilisées à mauvais escient par des entreprises ou des pirates.
Dans le cadre du modèle de confidentialité différentielle locale, vous n’envoyez jamais vos données nulle part. Au lieu de cela, l'algorithme arrive sur votre appareil. Lorsque l’algorithme souhaite apprendre de vos données, il pose essentiellement des questions à votre appareil. Votre appareil ajoute ensuite du bruit aléatoire pour masquer les véritables données privées dans les réponses, avant de les envoyer au serveur central.
Le serveur central regroupe ensuite les données masquées de tous ses sujets. Ensemble, le bruit aléatoire s'annule, permettant à l'algorithme d'apprendre des informations privées sans jamais avoir accès aux données brutes d'un individu.
Ce modèle offre un plus grand degré de confidentialité car il élimine la possibilité que les données personnelles brutes soient utilisées à mauvais escient par l'organisme central ou volées par des cybercriminels.
Les limites de la confidentialité différentielle
La confidentialité différentielle est un concept passionnant qui pourrait nous aider à nous éloigner d’un monde où presque chaque instant de notre vie semble être suivi. Cependant, ce n’est pas un remède miracle et il présente un certain nombre de limites.
Précision vs confidentialité
Au cœur de la confidentialité différentielle se trouve un compromis entre précision et confidentialité . Nous utiliserons une analogie pour expliquer comment cela peut entraîner des complications. Disons que vous êtes un chercheur qui souhaite déterminer l’impact de la réussite financière d’une personne sur son attractivité aux yeux des autres.
Pour ce faire, vous avez créé une application en ligne dans laquelle les participants peuvent consulter la photo d’une personne ainsi que des statistiques sur ses revenus, sa richesse et sa banlieue de résidence, puis évaluer son attrait.
Bien sûr, inclure toutes ces informations en plus de leurs photos pourrait être considéré comme une énorme violation de la vie privée : les participants pourraient reconnaître certaines des véritables identités des sujets, ce qui finirait par révéler des données financières privées.
Pour lutter contre cela, vous pouvez brouiller les photos pour masquer l’identité de la personne. Le flou des photos équivaut à un processus similaire à celui de l'ajout de bruit de données aléatoires dans la confidentialité différentielle. Si vous ne rendiez que légèrement les images floues, les participants à l'enquête seraient toujours en mesure de les reconnaître. , donc les mêmes problèmes de confidentialité existeraient.
Cependant, si vous les floutez suffisamment pour cacher leur identité, les participants ne pourront pas voir à quel point ils sont attrayants. Dans des cas comme celui-ci, où un degré élevé de précision est important, la confidentialité différentielle peut ne pas être une approche efficace. Cela peut conduire soit à une protection insuffisante de la vie privée, soit à des résultats si inexacts qu’ils sont inutiles.
Bien que la confidentialité différentielle ne soit pas adaptée à la protection des informations privées en petits groupes et dans divers autres scénarios, elle a néanmoins un certain nombre d’utilisations. Comme nous l’avons déjà vu dans les exemples évoqués ci-dessus, il existe toute une série de situations dans lesquelles les données n’ont pas besoin d’être trop précises, ce qui nous permet d’obtenir des informations intéressantes sans atteinte significative à la vie privée.
Budget de confidentialité
Plus vous posez de requêtes à une base de données, plus la vie privée des personnes concernées risque d'être violée. . Considérez-le comme un jeu de 20 questions. Votre première question pourrait être quelque chose de très général, comme « Suis-je humain ? » Même si la réponse est « Oui », il est extrêmement peu probable que vous puissiez deviner de qui il s’agit.
Cependant, à mesure que vous posez de plus en plus de questions, vous vous rapprochez de plus en plus de la réponse. Une fois que vous vous posez une question comme « Suis-je le président ? » il devient beaucoup plus facile de deviner la bonne réponse. De la même manière, Lorsqu’une base de données différentiellement privée est interrogée à plusieurs reprises, de plus en plus d’informations sont révélées.
Au fil du temps, cela peut conduire à la désanonymisation des données. Cela arrive parce que le niveau d'anonymisation diminue à chaque requête. Plus une base de données a été interrogée, plus il est facile d'utiliser ces résultats de requête pour filtrer le bruit aléatoire et reconstruire les données privées d'origine.
Pour compenser cela, les implémentations de confidentialité différentielle incluent ce qu'on appelle un budget de confidentialité . Il s’agit essentiellement d’un contrôle de la quantité de données pouvant être extraites via des requêtes avant de risquer de les anonymiser. Une fois ce niveau atteint, le conservateur des données cesse de répondre aux requêtes pour protéger la vie privée des personnes concernées. .
Le montant varie en fonction d'un certain nombre d'autres paramètres. Toutefois, les budgets de protection de la vie privée sont généralement assez conservateurs et calculés sur la base des pires scénarios.
Applications concrètes de la confidentialité différentielle
La confidentialité différentielle n’est pas seulement une idée théorique que nous espérons pouvoir utiliser à l’avenir. Il a déjà été adopté dans diverses tâches.
Le recensement américain
Sceau du recensement des États-Unis par Mysid sous licence CC0 .
Tous les 10 ans, les États-Unis effectuent un recensement pour avoir un aperçu de la démographie et d’autres événements à l’intérieur du pays. Ces informations sont inestimables pour planifier l’avenir. Le recensement de 2020 était la première fois qu'il pouvait être rempli en ligne de manière généralisée.
La collecte d’autant de données personnelles suscite de sérieuses craintes quant à la sécurité et à la manière dont les informations resteront confidentielles. Pour lutter contre les risques, le US Census Bureau met en œuvre une confidentialité différentielle dans son processus.
Les données du recensement ne sont généralement publiées que sous une forme anonymisée et agrégée, mais comme nous l'avons vu précédemment, ce n’est pas forcément compliqué de désanonymiser ce genre de données . Suite au recensement de 2010, le Bureau du recensement a pu réidentifier les données de 17 pour cent de la population américaine. C'est inquiétant pour toute personne ayant des problèmes de confidentialité , l’évolution vers une confidentialité différentielle est donc une étape positive.
Pour le recensement de 2020, le Bureau du recensement a soigneusement équilibré le compromis entre exactitude et confidentialité. L'élimination complète des risques liés à la vie privée implique davantage de bruit dans les données, ce qui diminue leur précision et leur utilité. . D’un autre côté, un niveau élevé de précision ne nécessiterait aucun bruit de données, ce qui augmente considérablement les risques liés à la vie privée.
Dans le cadre de ce compromis, données provenant de petites communautés seront plus affectées par l’imprécision que les populations plus importantes. Cela inclut les zones rurales et les petits groupes raciaux.
RAPPORT
En 2014, chercheurs de Google et l'Université de Californie du Sud a publié un article intitulé RAPPOR : Réponse ordinale agrégée et randomisée préservant la confidentialité . Dans ce document, ils décrivent un système de collecte anonyme de statistiques.
Comme décrit dans l'article, RAPPOR est différentiellement privé, permettant « d'étudier la forêt de données client, sans permettre la possibilité d'examiner des arbres individuels ». RAPPOR utilise un modèle de confidentialité différentielle locale, où les données restent sur l'appareil plutôt que d'être collectés sur un serveur central.
Il est conçu pour donner aux individus un déni plausible, tout en permettant aux organisations de collecter des statistiques utiles telles que des histogrammes, des fréquences et des informations sur les catégories.
Google a RAPPORT déployé comme mécanisme d'adhésion pour les utilisateurs de Chrome. Il rassemble des données sur les sites que les utilisateurs définissaient comme pages d'accueil, afin que Google puisse mieux comprendre les logiciels malveillants qui ont tenté de les modifier. Environ 14 millions d’utilisateurs ont participé à l’étude et RAPPOR leur a permis de le faire sans compromettre leur vie privée.
RAPPOR est intégré à Chromium, qui est le composant open source du navigateur. Il s'agit d'une étape positive du point de vue de la confidentialité, car tout le monde peut consulter le code source de RAPPOR. . S’ils disposent des connaissances de base appropriées, ils peuvent voir ce que fait réellement le code.
Cela permet aux développeurs d'analyser les logiciels pour détecter les faiblesses de sécurité, et bien que L'implémentation de RAPPOR dans Chrome n'est pas parfaite, c’est certainement un pas dans la bonne direction en matière de confidentialité.
RAPPOR a également été libéré sous licence open source 'afin que chacun puisse tester ses mécanismes de reporting et d'analyse, et contribuer au développement de la technologie'. Développeurs Firefox ont exprimé leur intérêt pour l'utilisation de RAPPOR pour collecter des données télémétriques en toute sécurité, mais cela n'a pas été mis en œuvre à ce stade.
Pomme
Apple a déployé des mécanismes différentiellement privés dans un certain nombre de ses caractéristiques , y compris:
- Suggestions QuickType
- Conseils de recherche
- Suggestions d'émoticônes
- Utilisation du type de santé
- Domaines en panne de Safari
- Domaines de drainage d'énergie Safari
- Détection d'intention de lecture automatique Safari
Apparemment, comme pour la plupart des autres mises en œuvre de confidentialité différentielle, l’objectif de l’entreprise est de collecter des données qui contribuent à rendre ses produits plus efficaces, sans porter atteinte à la vie privée de ses utilisateurs.
Comme le RAPPORT de Google, Les fonctionnalités d'Apple déploient une confidentialité différentielle locale et ajoutent du bruit aux données des utilisateurs avant qu'elles ne soient partagées avec les serveurs centraux. . L'entreprise ne stocke aucune donnée d’identification aux côtés des données qu’il utilise pour entraîner ses algorithmes, ce qui est un bon signe qu’il prend le processus au sérieux.
Apple a également mis en place des mesures qui empêchent un attaquant de discerner des informations à partir de mesures corrélées. Même si Apple a bien réussi dans certains domaines de ses systèmes, chercheurs en matière de confidentialité différentielle l'ont également critiqué pour certains des paramètres qu'il utilise et pour la durée pendant laquelle il stocke les données.
Apple a contesté ces affirmations, arguant que son système offre des niveaux de protection supérieurs à ceux reconnus par les chercheurs. Dans l’article de Wired lié ci-dessus, l’un des auteurs de l’étude, Aleksandra Korolova, professeur à l’Université de Californie du Sud, a répondu aux défenses d’Apple en soulignant que le but de la confidentialité différentielle est de garantir qu'un système est sécurisé, même si l'entreprise qui contrôle le système adopte les pires comportements .
Essentiellement, le système doit être configuré de manière à ce que les utilisateurs n’aient pas besoin de faire confiance à l’entreprise pour faire ce qu’il faut – afin qu’elle, ses employés ou les pirates ne puissent pas désanonymiser les données même s’ils le souhaitent.
L’autre problème majeur de l’approche d’Apple est que il retient plus d'informations que le RAPPOR open source de Google . À titre d’exemple, il a fallu des mois de recherche aux chercheurs pour déterminer un paramètre clé essentiel pour discerner la confidentialité du système. L’entreprise aurait pu simplement le publier à la vue de tous.
Même si l’approche d’Apple n’est pas parfaite, elle reste une avancée bienvenue. Espérons que d’autres grandes entreprises technologiques suivront leurs traces et développeront des mécanismes de confidentialité similaires.
Confidentialité différentielle et coronavirus
Maladie du coronavirus 2019 par le Département d'État américain sous licence CC0 .
Au milieu de la pandémie de coronavirus, de nombreuses entreprises technologiques se mobilisent également pour apporter leur contribution. Un exemple est celui de Google Rapports sur la mobilité communautaire Covid-19 , qui sont en prenant des données globales de ceux qui ont activé l'historique des positions et en utilisant Google Maps pour déterminer le degré d'occupation de certains lieux.
On espère que les rapports sur la mobilité communautaire Covid-19 « fourniront un aperçu de ce qui a changé en réponse au travail à domicile, à la mise en place d’abris et à d’autres politiques visant à aplatir la courbe de cette pandémie ».
Ces données pourraient aider les responsables à prendre des décisions efficaces pour lutter contre la pandémie. Par exemple, si une ville constate que certains arrêts de bus sont trop fréquentés pour permettre une distance sociale efficace, elle pourrait augmenter le nombre de services qu'elle propose pour contribuer à réduire les contacts entre les individus.
Dans des circonstances normales, cela peut sembler une évolution inquiétante. Il y a donc quelques points que nous devrions clarifier.
Les personnes qui ont activé l'historique des positions voient déjà leur position suivie. La seule différence est désormais que ces informations feront partie de l’ensemble publié dans les rapports.
Alors que certains souhaitent aider les fonctionnaires de toutes les manières possibles, d’autres peuvent s’inquiéter de l’utilisation de leurs données. La bonne nouvelle est que les rapports sur la mobilité communautaire Covid-19 n’impliquent pas la collecte de données individuelles brutes.
Au lieu de cela, ils utilisent la confidentialité différentielle pour collecter des données qui fournissent des informations utiles sur le groupe, sans compromettre la vie privée des individus.
Bien que la confidentialité différentielle de Google ne soit pas parfaite, l’entreprise semble s’engager à protéger les individus tout en transmettant des données pour lutter contre le coronavirus. Si vous êtes toujours inquiet, l'historique des positions est un service optionnel et, à moins qu'il n'ait été activé, vos données ne seront pas collectées dans le cadre des rapports.
Si vous souhaitez aider de toutes les manières possibles, l'activation de votre historique des positions contribuera à rendre les résultats un peu plus précis. Toutefois, cela signifie que Google utilisera également vos informations de localisation à d’autres fins.
La promesse d’une confidentialité différentielle
Certaines des idées derrière la confidentialité différentielle existent depuis les années soixante, mais ce n’est qu’au milieu des années 2000 que leur document de définition a été publié. Même alors, il se cachait principalement dans le domaine universitaire jusqu’en 2014, lorsque Google a publié RAPPOR.
Bien que le concept n’ait pas encore été largement mis en œuvre, il reste prometteur pour son avenir, ainsi que pour l’avenir de notre vie privée collective. De nombreuses entreprises technologiques, grandes et petites, développent déjà des services basés sur ce concept.
Comme nous l’avons évoqué précédemment, la confidentialité différentielle a également bénéficié d’une plus grande couverture médiatique pendant la crise du coronavirus, car elle nous offre un moyen de collecter des données précieuses qui aident à contrôler la propagation, sans provoquer de violations significatives de la vie privée.
De plus, nous commençons tous à prendre conscience de la collecte de données à grande échelle qui a lieu, ainsi que de la manière dont elle peut nuire à notre vie privée. . En 2018, l’Europe a commencé à appliquer le RGPD, un ensemble de réglementations historiques visant à protéger les personnes et leurs données.
À peu près à la même époque, les entreprises ont commencé à pivoter et les principaux collecteurs de données tels que Google et Facebook ont commencé mettant l'accent sur la vie privée dans leurs produits et leur marketing , ainsi que d'offrir aux utilisateurs plus d'options dans leurs paramètres de confidentialité.
Comme l’a déclaré Zuckerberg lors de la conférence F8 de 2019 : « L’avenir est privé ». Même si ses antécédents peuvent rendre difficile de le croire, nous pouvons encore espérer que des concepts tels que la confidentialité différentielle pourront nous conduire vers un avenir plus privé . Si la collecte de données et l’apprentissage automatique peuvent être efficaces sans porter atteinte à la vie privée des individus, tout le monde y gagne.