Les risques pour la vie privée de l’IA générative
L'IA générative est sous le feu des projecteurs depuis qu'OpenAI a lancé son chatbot révolutionnaire, ChatGPT, à la fin de l'année dernière. À l'aide d'invites textuelles, les utilisateurs peuvent demander à ChatGPT d'écrire des essais, de la poésie, du code, de produire des images et des vidéos et de répondre à des questions sur à peu près tout.
Bien qu'il puisse être amusant d'envoyer des invites à ChatGPT, cette nouvelle technologie présente de nombreux problèmes de confidentialité. Et c’est ce que nous allons examiner dans cet article. Nous fournirons un aperçu de l’IA générative et une vue approfondie de ses implications en matière de confidentialité.
Comment fonctionne l’IA générative ?
Modèles d'IA génératifs, comme ChatGPT , sont construits sur de grands modèles de langage. Les grands modèles de langage (LLM) reçoivent d'énormes quantités de données sous forme de texte. À partir de ces données, ils apprennent à produire des réponses naturelles et faisant autorité aux invites textuelles.
Les LLM produisent des modèles mathématiques de la distribution statistique des jetons au sein d'un vaste référentiel de textes générés par l'homme. Dans ce contexte, les jetons peuvent être des mots, des parties de mots ou des caractères individuels, y compris la ponctuation. Ainsi, par exemple, si vous interrogez le modèle avec « Le premier président américain était… » et qu’il répond par « George Washington », cela ne signifie pas qu’il « sait » quoi que ce soit sur l’histoire américaine ou sur George Washington. Cela signifie qu'il a interprété votre question comme suit : « Compte tenu de la répartition statistique des mots dans l'immense corpus public de textes anglais, quels mots sont les plus susceptibles de venir après la séquence : 'Le premier président américain était ?' » dehors, ces mots sont « George Washington ».
Les LLM sont donc extrêmement puissants et leurs réponses sont si naturelles et font autorité qu’il est difficile de distinguer les réponses du chatbot des véritables réponses humaines. En fait, le LLM de Google, LaMDA (modèle linguistique pour les applications de dialogue), a fait la une des journaux l'année dernière lorsqu'un ingénieur de Google a affirmé LaMDA avait atteint la sensibilité . C’était un technologue chevronné qui faisait cette affirmation, et non un profane. Google a finalement rejeté la plainte et a malheureusement licencié l'ingénieur. Mais cela montre à quel point les LLM sont efficaces pour imiter la parole humaine.
Les modèles d'IA générative sont basés sur des threads, ce qui leur permet de se référer et de s'appuyer sur des déclarations et conversations passées. Les utilisateurs peuvent se référer à leurs conversations précédentes avec les robots et, tout comme les humains, les robots sauront immédiatement de quoi vous parlez et poursuivront la discussion. Ils peuvent ainsi aller bien au-delà de simples jeux de questions et réponses. Ces modèles d’IA peuvent répondre à des questions complémentaires, contester des prémisses incorrectes, admettre leurs erreurs et rejeter les demandes inappropriées, les rendant ainsi encore plus convaincantes.
Vos déclarations précédentes éclairent continuellement les réponses des modèles d’IA génératifs. Au fur et à mesure que la conversation évolue, le chatbot évolue également : l’utiliser, c’est le former. Et cela nous amène aux implications de la technologie en matière de confidentialité.
Moteur de recherche sous stéroïdes
À bien des égards, les chatbots génératifs d’IA sont comme les moteurs de recherche : vous saisissez une requête qui est traitée et un résultat est produit. Le résultat produit par un chatbot peut être assez différent de la liste d’URL typique de votre moteur de recherche, mais le processus est similaire. Et la collecte de données est également similaire.
Comme vous le savez probablement déjà, les moteurs de recherche comme Google et Bing enregistrent vos requêtes, les traitent de manière algorithmique pour extraire autant d'informations que possible sur vous et les ajoutent au profil qu'ils créent à votre sujet. C'est une raison suffisante pour utiliser Duckduckgo dans mon livre, mais le fait est que les chatbots IA enregistrent toutes vos requêtes et peuvent créer des dossiers sur leurs utilisateurs comme votre moteur de recherche typique. C'est ce que fait Bard de Google. Dans un article de blog , OpenAI (ChatGPT) a affirmé ne pas créer de profils d'utilisateurs à partir des données collectées.
Mais en raison de la nature des chatbots génératifs d’IA et de leurs capacités, les données que les utilisateurs transmettront à un chatbot peuvent également être très différentes de celles qu’ils fourniraient à un moteur de recherche. Par exemple, je pourrais copier et coller l’intégralité de cet article dans l’interface utilisateur d’un chatbot et lui demander de le réécrire pour que je réduise le nombre de mots. Et cela en quelques secondes, avec plus ou moins de succès. Cet exemple met en évidence les différences dans la quantité de données qu’un chatbot fournirait par rapport à un moteur de recherche traditionnel. Et étant donné que plus de données génèrent plus d’informations, un chatbot a de bonnes chances d’ingérer davantage de données et d’en apprendre davantage sur vous qu’un moteur de recherche.
Vous l'avez peut-être involontairement entraîné
Même si vous n’avez pas du tout utilisé l’IA générative, elle vous a peut-être quand même utilisé.
Comme je l’ai mentionné plus tôt, les modèles d’IA générative reçoivent des quantités colossales de données textuelles pendant leur formation – pensez aux pétaoctets. Mais d’où viennent toutes ces données ? Une partie importante, voire la majorité, est extraite d'Internet à l'insu ou sans le consentement des sites tiers à partir desquels ils ont été extraits.
Les modèles d’IA générative peuvent extraire des données des profils de réseaux sociaux publics, des sites Web personnels, des archives publiques et même des articles supprimés des résultats des moteurs de recherche en vertu du droit à l’oubli de l’UE. Bien que ces informations soient techniquement publiques, la technologie de l’IA ouvre de nouvelles voies aux violations de la vie privée en facilitant grandement l’accès à ces données, intentionnellement ou accidentellement.
Récupérer des données et les ajouter au corpus d’une IA viole intégrité contextuelle . En d’autres termes, les informations personnelles sont exposées en dehors du contexte ou de la finalité originale pour laquelle elles ont été collectées. Il n'est pas difficile d'imaginer quelqu'un demander à ChatGPT ou à une autre IA générative : « qui vit sur Madison Street ? et obtenir une liste complète de noms et d'adresses en réponse. Oui, les informations peuvent être publiques, mais elles n’ont jamais été censées faire partie du corpus d’une IA.
Partage excessif
Imaginons maintenant ce qui se passe lorsqu’un employé décide qu’un chatbot pourrait l’aider à résumer les notes de la réunion d’hier. Eh bien, le chatbot réussira probablement à résumer les notes de réunion. Mais il se pourrait bien qu’il ait ingéré des secrets commerciaux sensibles au cours du processus. C’est un autre risque pour la vie privée.
Les chatbots vous invitent à leur fournir de grandes quantités de données – encore une fois, bien plus importantes que ce que vous fournissez habituellement à un moteur de recherche. Il sera donc beaucoup plus difficile de suivre ce que nous avons donné au chatbot que ce que nous avons fourni au moteur de recherche. Il va falloir compter sur la capacité des gens à s’en rendre compte et à s’abstenir de trop partager. Et les chances que cela fonctionne sont plutôt minces.
Pourquoi donc? Je pense qu’une partie de la raison, au moins, est que nous mettons de plus en plus une technologie de pointe extrêmement complexe entre les mains de profanes qui ne comprennent clairement pas son fonctionnement. Ce n’est pas une insulte à l’intelligence de qui que ce soit – il ne pourrait en être autrement. Il s’agit tout simplement d’une technologie beaucoup trop complexe pour que les gens puissent en avoir une compréhension globale, contrairement à la technologie d’antan.
Cela nous amène à la question de savoir ce qu’il advient de vos données une fois qu’elles ont été ingérées – et c’est le problème de la boîte noire.
Aspiré dans la boîte noire
L’IA a un problème de « boîte noire » pour différentes raisons. Le problème vient du fait que nous ne comprenons pas pleinement ce qui se passe « à l’intérieur » du modèle d’IA. Mais cela se produit également parce que même si nous savons que ces chatbots collectent nos données, nous ne savons pas exactement comment les entreprises à l’origine de cette technologie utilisent ces données. Leurs politiques de confidentialité ont tendance à être rédigées dans un jargon juridique et sont assez vagues – utilisant des expressions telles que « nous pouvons », « parfois » et « de temps en temps ».
Le premier problème de la boîte noire (que se passe-t-il à l’intérieur de l’IA ?) se pose en raison de la manière dont les modèles d’IA sont entraînés. L'apprentissage profond utilise des réseaux de neurones artificiels massifs avec plusieurs couches et nœuds cachés. Chaque nœud traite son entrée et transfère sa sortie à la couche de nœuds suivante. Grâce à ce processus, le modèle d'IA ingère des millions et des millions de points de données et identifie les corrélations au sein de ces points de données pour produire un résultat.
Ce processus (de l’entrée à la sortie) se déroule à l’intérieur de la boîte et est principalement autodirigé – c’est-à-dire que la machine s’entraîne pratiquement toute seule. Il sera donc évidemment difficile pour les utilisateurs de comprendre ce qui se passe. Encore une fois, même les programmeurs et les data scientists ont du mal à interpréter ce qui se passe à l’intérieur de la boîte. Nous savons tousquelque chosese passe, mais nous n'avons aucune visibilité surquoise produit – d’où le terme boîte noire.
Le deuxième problème de la boîte noire est celui de la collecte de données et de la politique de confidentialité. Pour commencer, voici une capture d’écran de la politique de confidentialité d’OpenAI.
Sa lecture montre clairement qu'OpenAI collecte beaucoup de données. Mais au-delà de cela, cela laisse plus de questions que de réponses. Combien de temps les données sont-elles conservées ? Qu’implique « mener des recherches » ? Que signifie « améliorer votre expérience » ?
Plus bas dans la politique de confidentialité, nous trouvons la déclaration suivante :
« Comme indiqué ci-dessus, nous pouvons utiliser le contenu que vous nous fournissez pour améliorer nos services, par exemple pour former les modèles qui alimentent ChatGPT. Découvrez ici les instructions sur la façon dont vous pouvez refuser notre utilisation de votre contenu pour former nos modèles.
Chaque fois que vous utilisez l’IA, vous la formez également. OpenAI fournit des instructions pour refuser que vos données soient utilisées pour entraîner le modèle, mais cela ne désactivera pas la collecte. Il s’agit donc essentiellement d’une « promesse » d’OpenAI de ne pas utiliser vos données pour la formation. Mais elles sont toujours collectées, alors comment savoir si vos données ont été utilisées ou non pour la formation ? Réponse courte : vous ne le saurez jamais. C'est la vie dans la boîte noire.
En s’appuyant sur les points ci-dessus, que se passe-t-il lorsque l’IA est utilisée dans un contexte médical, par exemple ? Il ne fait aucun doute que l’IA a le potentiel de produire de meilleurs résultats médicaux pour la société. Il peut effectuer des recherches sur diverses molécules pour produire de nouveaux médicaments ; cela peut aider au diagnostic des patients – en détectant potentiellement de nombreuses affections à leurs tout premiers stades pour un traitement plus facile. Et la liste continue.
Mais étant donné les problèmes de boîte noire ci-dessus, qu’arrive-t-il à vos données médicales une fois que l’IA les a ingérées ? À qui appartient-il ? Sera-t-il partagé ? Si oui, avec qui et pourquoi ? Sera-t-il partagé avec les compagnies d’assurance, ce qui pourrait entraîner une perte de couverture ? Votre supposition est aussi bonne que la mienne.
Analyse des sentiments
Vous souvenez-vous, il y a près de dix ans, de l'époque où l'on écrivait de nombreux reportages sur la facilité avec laquelle il était possible d'identifier de manière unique des individus en ligne avec seulement quelques points de données (généralement quatre seulement) ? Voici une de ces histoires du New York Times . C’était à juste titre effrayant et effrayant – en particulier pour les personnes soucieuses de leur vie privée.
L’IA vient de faire monter les enchères avec l’analyse des sentiments.
L’analyse des sentiments, ou exploration d’opinions, fait référence à la capacité de l’IA à interpréter et à classer les sentiments humains comme positifs, neutres ou négatifs. Ceci est déjà répandu dans les centres d’appels du service client où le chatbot génératif à IA analysera le discours du client, classant ses déclarations comme positives, neutres ou négatives pour éclairer les prochaines étapes à suivre dans la conversation. L’objectif apparent est de vendre des produits de manière incitative et de favoriser la fidélité à la marque. Mais le fait est que les entreprises vont désormais créer des profils de nos sentiments basés sur une analyse vocale basée sur l’IA.
Amusant, non ?
Quand l’IA se lance dans le phishing
Une autre menace à la vie privée qui accompagne l’avènement de l’IA générative est sa militarisation (cela allait bien sûr se produire – on ne peut que s’étonner ici). Avec son étrange capacité de falsification profonde, de clonage de voix et d'émulation naturelle de la parole, les escroqueries par phishing Je viens de recevoir une énorme balle dans le bras.
Vous vous souvenez du bon vieux truc qui consiste à lire l'e-mail ou le message texte suspect et à rechercher les fautes d'orthographe et de grammaire ? Cela ne vous empêchera peut-être pas d’avancer. Un chatbot génératif à IA pourrait créer de faux messages semblant provenir de l’un de vos amis proches. Il se peut qu’il n’atteigne pas à chaque fois le statut de sosie. Mais le phishing peut être une question de chiffres, et l’IA pourrait bien faire pencher la balance en faveur de l’attaquant.
Nous avons déjà entendu des histoires de personnes sans méfiance qui se sont fait escroquer par un parent cloné par la voix qui demandait de l’argent de toute urgence. Avec la démocratisation de l’IA générative, ces types d’attaques ne feront que devenir plus répandus et plus efficaces. L’IA générative abaisse la barre pour les escrocs potentiels et peut permettre à des pirates informatiques plus avertis de réaliser des attaques qui auraient autrement été impossibles – des choses effrayantes.
Bien sûr, c’est un jeu du chat et de la souris, donc les défenses finiront par rattraper leur retard. Mais cela ne mettra pas fin au jeu ; cela ne fera que l'aggraver. Les méchants trouveront comment contourner les défenses jusqu'à ce que la défense les rattrape à nouveau. Le meilleur des mondes, en effet.
Poser les bonnes questions
J'aimerais avoir une section intitulée « Comment protéger votre vie privée contre les chatbots génératifs d'IA ». Mais j'ai peur qu'elle ne contienne qu'une seule ligne :
Ne l'utilisez pas.
Mais, comme indiqué ci-dessus, même si vous ne l’utilisez pas, l’IA peut quand même vous utiliser. Et cette fois, je veux dire que même si vous n’interagissez pas directement avec un chatbot génératif d’IA, vous pourriez toujours être victime d’une attaque pilotée par l’IA. Et soyons réalistes, la plupart des gens vont utiliser l’IA. Ainsi, même si je ne peux pas vraiment produire une liste de conseils sous l’en-tête « Comment protéger votre vie privée lorsque vous utilisez l’IA », voici une liste de questions auxquelles devraient répondre les entreprises technologiques qui proposent des robots génératifs d’IA.
Si vous êtes une personne soucieuse de la confidentialité, vous devriez obtenir des réponses à ces questions avant d’interagir avec l’IA, afin de comprendre dans quoi vous (pourriez) vous embarquer.
Le modèle d'IA traite-t-il et stocke-t-il les données utilisateur (requêtes, invites, instructions de raffinement et résultats générés) à des fins de formation (du modèle d'IA) ?
Les entreprises d’IA générative doivent clairement indiquer si elles traitent et stockent les données des utilisateurs et, si tel est le cas, si ces données sont utilisées pour entraîner davantage le modèle.
Pouvez-vous accepter ou refuser que vos données soient utilisées pour entraîner le modèle d'IA ?
Assurez-vous de refuser que vos données soient utilisées pour entraîner le modèle d'IA du fournisseur si vous le pouvez. Si cela n'est pas possible, assurez-vous que les données de formation que vous fournissez ne seront utilisées que pour affiner votre modèle/sortie. Si ce qui précède ne peut pas être fait, je vous recommande de ne pas interagir avec le chatbot.
Si le fournisseur stocke vos données de formation et de validation, combien de temps sont-elles conservées ?
Vous voulez l'assurance que vos données sont stockées en toute sécurité (c'est-à-dire cryptées au repos et en transit) et isolées de votre abonnement, des informations d'identification API et des informations de paiement.
Si le fournisseur stocke vos données de formation et de validation, pouvez-vous les supprimer ?
Assurez-vous de contrôler les données que vous partagez et supprimez-les lorsqu’elles ne sont plus nécessaires.
Le fournisseur partage-t-il vos données avec des tiers ?
Plus vos données sont partagées, moins vous avez de contrôle sur elles. Et même si de nombreux fournisseurs « anonymisent » les données avant de les partager, cela ne suffira probablement pas (voir l’article du New York Times ci-dessus). Si vos données sont partagées, j’y réfléchirais à deux fois avant de saisir une invite.
Quels employés du fournisseur peuvent accéder à vos données ?
Assurez-vous que seuls les employés autorisés peuvent accéder à vos données et qu’ils sont rares.
Le fournisseur vous permet-il de refuser la collecte et le stockage de données ?
Même s’il est peu probable que cela soit proposé aux utilisateurs individuels, les fournisseurs d’IA générative pourraient permettre à certaines organisations de se retirer complètement de la collecte de données si leurs activités impliquent le traitement de données sensibles, confidentielles ou légalement réglementées.
Celui-ci pourrait faire la différence.
Si la désinscription est possible et approuvée par le fournisseur, assurez-vous d'obtenir une confirmation explicite que vos données ne sont pas collectées. Au-delà de cela, tout dépendra de la confiance, car vous n’aurez aucune visibilité sur ce qui est collecté ou non.
Conclure
Alors voilà. Les implications de l’utilisation de l’IA générative sur la vie privée ne sont pas aussi claires que celles du moteur de recherche de Google, par exemple. D’une part, la recherche Google existe depuis bien plus longtemps et nous avons quelques idées sur le fonctionnement de Google (même si ce n’est pas joli…). À l’inverse, l’IA générative n’est réellement présente dans nos vies que depuis quelques mois, il reste donc bien d’autres inconnues. Mais les risques liés à la vie privée sont réels et peut-être encore plus graves que ce que nous avons connu jusqu’à présent.
Le temps nous dira, je suppose, quels préjudices sont réels et lesquels sont imaginaires. Mais d’ici là, il est probablement plus sage de pécher par excès de prudence. Je recommanderais de rester à l’écart de la technologie jusqu’à ce que davantage de lumière y soit apportée. Mais si vous devez l’utiliser, essayez d’être conservateur dans ce que vous partagez.
Soyez prudent.