Comprendre les données agrégées, anonymisées et anonymes
'Nous pouvons partager des données agrégées avec nos partenaires.'
'Nous pouvons partager des données agrégées ou anonymisées.'
'Notre produit collecte des données anonymes à des fins d'analyse.'
De nombreuses organisations affirment protéger la vie privée en utilisant des données agrégées, anonymisées ou anonymes. Cependant, leurs utilisateurs comprennent-ils ce que signifient ces termes ? Que sont les données agrégées ?Y a-t-il une différence entre les données anonymisées et anonymisées ?Pour les chercheurs, quels ensembles de données ont le plus de valeur : agrégées ou anonymes ?
Les utilisateurs acceptent souvent le partage de données personnelles avec désidentification, sans en saisir les détails.
Si vous vous êtes déjà demandé ce qui se passe, ne vous posez plus la question. Voici votre guide sur la désidentification des données, l’agrégation et les différents niveaux d’anonymat.
Données agrégées : pour combiner et résumer
Alors, qu’est-ce que les données agrégées ? L'agrégation fait référence à un processus d'exploration de données populaire dans les statistiques. Les informations ne sont visibles que par groupes et dans le cadre d'un résumé, et non par individu. Lorsque les data scientists s’appuient sur des données agrégées, ils ne peuvent pas accéder aux informations brutes. Plutôt,les données agrégées collectent, combinent et communiquent des détails en termes de totaux ou de résumé.De nombreux langages de statistiques et de bases de données populaires permettent des fonctions d'agrégation, avec des didacticiels disponibles pour R. , SQL et Python .
Considérez ce qui suit : une société de marketing mène une enquête pour voir si les gens préfèrent la marque de leur entreprise ou celle de leurs concurrents. Lorsqu’ils présentent les données à la direction, c’est sous forme agrégée : montrant quelle marque est la plus populaire. Ils peuvent inclure des informations supplémentaires sur les groupes auxquels ils ont parlé, telles que les préférences de vote par âge ou par lieu. Grâce à des informations globales, nous pouvons obtenir des détails sur les marques populaires par âge ou dans certaines régions, mais les détails exacts sur la façon dont les individus ont voté ne sont jamais révélés.
L’agrégation peut-elle protéger la confidentialité ?
Étant donné que l’agrégation de données n’affiche les informations que par groupes, beaucoup la considèrent comme une garantie pour protéger les informations personnelles. Après tout, vous ne pouvez pas compromettre la confidentialité si les données ne montrent que les résultats de groupes d’individus, n’est-ce pas ?
Malheureusement, ce n’est pas si facile ;avec une bonne analyse, les informations globales peuvent révéler des détails personnels importants.Et si vous demandiez les données globales du blog : combien de visiteurs irlandais recevez-vous et qui consultent le blog sur un smartphone ? Et si vous demandiez le nombre de visiteurs irlandais utilisant un smartphone en une journée ? Ou des visiteurs irlandais qui utilisent un smartphone et ont cliqué sur une publicité Amazon pour des vêtements pour hommes au cours d'une seule journée ? En appliquant plusieurs filtres spécifiques, il pourrait être possible d’isoler un individu, intentionnellement ou non. L'agrégation peut protéger la vie privée, mais rien ne garantit que ce soit toujours le cas.
Pour les organisations qui utilisent l’agrégation de données, Ed Felton de la FTC lance un avertissement : les données agrégées peuvent être utiles, mais elles ne garantissent pas la confidentialité.
« Le simple argument selon lequel il s’agit de données agrégées, donc sûres à diffuser, n’est pas suffisant en soi. »
Désidentification : suppression des données personnelles
La désidentification est un processus qui supprime les informations personnelles d'un ensemble de données.Cette approche vise à protéger la confidentialité tout en fournissant des données complètes à des fins d'analyse. Certaines données sont plus efficaces que d’autres pour identifier les individus. Nous sommes faciles à identifier lorsque les données incluent notre nom, notre adresse, notre adresse électronique, notre date de naissance ou d'autres facteurs uniques. Avec la désidentification, nous supprimons ces identifiants uniques des données brutes.
Un magasin de détail qui utilise la désidentification peut suivre les achats individuels, les dates et les emplacements des magasins, mais supprimer les noms et adresses. Alors que « Susan Smith du 75 Clark Drive à Great Falls, Montana achète des livres d'ingénierie », la base de données du magasin l'enregistre comme une « utilisatrice du site du Montana qui achète des livres d'ingénierie ». La désidentification supprime le nom et les identifiants de Susan afin que son achat puisse provenir de n'importe qui.
La désidentification est une mesure de protection de la vie privée particulièrement populaire auprès des cliniques et des organisations qui traitent des informations sur la santé. Le Loi sur la portabilité et la responsabilité en matière d'assurance maladie (HIPAA) traite de la désidentification en vertu de l’article 164.514. Selon HIPAA, les informations sont anonymisées lorsque
« il n’existe aucune base raisonnable selon laquelle les informations peuvent être utilisées pour identifier un individu ».
La HIPAA autorise certaines autorisations pour les données anonymisées, telles que les divulgations à des fins de recherche ou à des agents publics.
De la désidentification à la réidentification : cela ne prendra peut-être pas grand-chose.
Malheureusement pour les organisations qui pourraient espérer utiliser la désidentification comme mesure de protection, beaucoup y voient désormais une mauvaise protection. Les personnes peuvent être identifiées par bien plus que des noms et des numéros, grâce à des ensembles de données détaillés. Si le poste d’une personne concernée est « Maire » et que les données brutes incluent la ville, il n’en faut pas beaucoup pour déterminer qui est qui.
Un cas extrêmement populaire de mise en évidence du défaut de désidentification est survenu en 2006 avec Netflix. Par Robert Lemos avec SecurityFocus, dans le cadre d’un concours visant à améliorer l’algorithme de l’entreprise, Netflix a publié un ensemble de 2 millions d’abonnés. L'entreprise a anonymisé l'ensemble de données en supprimant les noms d'utilisateurs. Pourtant, à leur grande surprise, des chercheurs d’Austin ont réussi à identifier les utilisateurs. Ils l'ont fait en utilisant les données disponibles et en complétant les vides provenant d'autres sources : en combinant les évaluations des utilisateurs avec une base de données publique de musiques de films. Inutile de dire que, selon epic.org , Netflix a annulé le concours.
La dépersonnalisation est également imparfaite car il n’existe pas d’accord universel sur les informations personnellement identifiables.Les données sont-elles anonymisées si les adresses IP restent ? Et les dates de naissance ? Des normes existent, notamment le Safe Harbor de la HIPAA, mais sont-elles suffisantes ? Selon Privacy Analytics, qui fait partie du groupe de sociétés IQVIA, Safe Harbor « ne garantit pas réellement que le risque de ré-identification est faible, sauf dans des circonstances très limitées ». C’est une mauvaise nouvelle pour les organismes de santé qui en dépendent, car selon la section HIPAA § 164.514.2.ii, les autorisations pour les données anonymisées ne sont acceptables que s’il n’y a aucune preuve que les données peuvent être ré-identifiées. Des études récentes au cours des dix dernières années, notamment Risques pour la vie privée des patients : une réidentification des patients dans les données hospitalières de l'État du Maine et du Vermont cela signifie désormais que de nouvelles normes sont nécessaires.
Qu’en est-il des données codées ? Tokenisation ?
Les données codées et la tokenisation sont des moyens efficaces de protéger les données sensibles. Pour les données codées, toutes les informations sensibles sont supprimées et remplacées par des mots de code, des chiffres ou des identifiants uniques. Les codes correspondent à une autre base de données ou à un autre document qui fonctionne comme une clé. Les informations sont ré-identifiées en faisant correspondre le code avec les données sensibles correspondantes.
Dans la tokenisation, nous automatisons le processus en remplaçant les données sensibles par une variable de référence. Le jeton correspond à une base de données plus sécurisée qui contient les informations sensibles. Lors du traitement des informations, le système analyse les jetons par rapport aux enregistrements de la base de données sécurisée. S’il trouve la correspondance correspondante du jeton, le traitement continue en utilisant les données sensibles.
Les données codées et les jetons protègent la sécurité des informations.Ils sont efficaces car ils cachent uniquement les données sensibles. Si un analyste souhaite traiter les données sans faire référence à des données personnelles, il le peut. De même, les ensembles de données qui utilisent des identifiants de code ou des jetons sont plus sûrs contre le vol. Si les données sont compromises, les données sensibles restent cachées. Par exemple, un attaquant qui vole des données sur les ventes par carte de crédit ne peut pas voir les numéros de carte si des jetons sont utilisés.
Sachez cependant que si les jetons, les données codées et les identifiants uniques offrent une meilleure sécurité, ils ne rendent pas les données anonymes. Les données qui utilisent des jetons ou des identifiants de code sont toujours soumises aux règles de confidentialité. Les lois sur la confidentialité ne concernent pas uniquement la violation et l’accès aux données. Les législations sur la confidentialité visent à minimiser l’utilisation abusive potentielle des données personnelles. Tant que les données peuvent, avec autorisation, être réidentifiées, des accords de confidentialité doivent être en place.
Données anonymes : nous ne pouvons pas savoir qui vous êtes… ou le pouvons-nous ?
Les données anonymes font référence à des informations lorsqu'il est impossible d'identifier des individus.Les ensembles de données véritablement anonymes sont le rêve de tout passionné de confidentialité.La capacité de collecter, de stocker et d’analyser des données sans la capacité de reconnaître les individus constitue une protection idéale. Pour les organisations qui parviennent à garder leurs données anonymes, les avantages sont énormes. Les données anonymes sont plus faciles à vendre, à traiter, à analyser et à conserver, car elles nécessitent moins de garanties de protection.
Moins de règles s’appliquent : les données anonymes sont souvent exemptées des législations sur la protection de la vie privée, notamment du règlement général sur la protection des données de l’UE. Selon le RGPD , les informations « qui ne concernent pas une personne physique identifiée ou identifiable ou des données personnelles anonymisées de telle manière que la personne concernée ne soit pas ou plus identifiable » ne sont pas soumises aux exigences de confidentialité.
Comment rendre les données anonymes ? La plupart des techniques appartiennent à l'une des trois catégories suivantes : cryptographique, généralisation (également appelée recodage) et randomisation.
Méthodes cryptographiquescrypter les informations stockées, rendant les données anonymes jusqu'à ce qu'elles soient déchiffrées pour être utilisées. Cela protège les données, mais signifie qu'une réidentification peut avoir lieu lorsque les données sont décryptées pour être traitées.
Techniques de généralisationemprunter à l’agrégation de données et à la désidentification, pour supprimer délibérément les identifiants et réduire les données précises. En généralisation, par exemple, la taille ou le poids d’un individu devient une fourchette, au lieu d’un nombre exact.
Randomisationfausse les résultats en ajoutant des données et en déplaçant des éléments de sorte que les résultats de réidentification soient pleins d'erreurs. Les archives finlandaises de données sur les sciences sociales Directives de gestion des données fournir des explications détaillées sur les techniques d’anonymisation des données qualitatives et quantitatives.
Pourquoi nous devrions peut-être abandonner complètement l’idée de données anonymes
Malheureusement, la possibilité d’anonymiser les données personnelles n’est peut-être plus une option. L’ingéniosité qui peut être utilisée pour réidentifier des individus est tout à fait stupéfiante. Écrire pour The Guardian, Olivia Solon énumère des exemples d'utilisation de photos de paparazzi et de journaux de bord de taxi anonymes pour identifier les mauvais pourboires de célébrités. Cory Doctorow écrit pour BoingBoing.net que le journaliste Svea Eckert et le data scientist Andreas Dewes ont identifié le régime médicamenteux d'un député allemand grâce aux données collectées par les plug-ins du navigateur. En juillet 2019, le journaliste du New York Times Gina Kolata a publié des preuves selon lesquelles les scientifiques peuvent ré-identifier les données « anonymisées » du recensement américain. Entre les progrès de la science des données et la quantité croissante de données destinées à combler les lacunes, le concept de données anonymes pourrait perdre tout son sens.
Alors si aucune de ces techniques ne protège pleinement la vie privée, que faisons-nous ?
Tout d’abord, reconnaissez que même si les ensembles de données agrégées, anonymisées et anonymisées ne protègent pas complètement la confidentialité, ils offrent néanmoins un certain niveau de protection. Si vos données sont agrégées, anonymisées ou anonymisées, il y a moins de chances qu'elles soient lues par les processeurs quotidiens. Heureusement, extraire des informations personnelles de ces données fortement traitées nécessite des outils et des compétences qui ne sont pas accessibles à tout le monde.
Deuxièmement, sachez que si vous voyez ces expressions dans les politiques de confidentialité ou les conditions d’utilisation, vos informations personnelles sont toujours accessibles. Un service qui collecte des données anonymes peut toujours collecter des informations personnelles. Les entreprises qui partagent des informations agrégées ou anonymisées partagent toujours des données personnelles : quel est votre sentiment à ce sujet ?
Si vous exploitez une entreprise qui utilise l’agrégation, la désidentification ou l’anonymisation, sachez que ces mesures ne peuvent pas être vos seules garanties.Vous devez toujours mettre en place d’autres mesures de protection physiques, techniques et administratives. Une violation de données anonymisées peut toujours vous coûter cher, en particulier s’il existe des preuves que des données personnelles peuvent être collectées. Utilisez ces techniques comme un outil, mais pas comme la finalité des programmes de confidentialité et de sécurité.
Voir également: Tendances en matière de violations de données