OpenAI affirme que les injections rapides qui peuvent tromper les navigateurs IA pourraient ne jamais être entièrement « résolues » | Fortune

« Il est peu probable que l’injection rapide, comme les escroqueries et l’ingénierie sociale sur le Web, soit complètement « résolue » », a écrit OpenAI dans un article de blog lundi, ajoutant que le « mode agent » dans ChatGPT Atlas « élargit la surface des menaces de sécurité ».

OpenAI a déclaré que l’objectif était que les utilisateurs « puissent faire confiance à un agent ChatGPT », et le responsable de la sécurité de l’information, Dane Stuckey, a ajouté que la société espère y parvenir en « investissant massivement dans des équipes rouges automatisées, un apprentissage par renforcement et des cycles de réponse rapides pour garder une longueur d’avance sur nos adversaires ».

“Nous sommes optimistes qu’un cycle de réponse rapide, proactif et hautement réactif, pourra continuer à réduire sensiblement les risques réels au fil du temps”, a déclaré la société.

Combattre l’IA avec l’IA

L’approche d’OpenAI face au problème consiste à utiliser son propre attaquant basé sur l’IA, essentiellement un robot formé par apprentissage par renforcement pour agir comme un pirate informatique cherchant des moyens de transmettre des instructions malveillantes aux agents d’IA. Le robot peut tester les attaques en simulation, observer la réaction de l’IA cible, puis affiner son approche et réessayer à plusieurs reprises.

“Notre attaquant formé (apprentissage par renforcement) peut guider un agent pour qu’il exécute des flux de travail à long terme sophistiqués et dommageables qui se déroulent sur des dizaines (voire des centaines) d’étapes”, a écrit OpenAI. “Nous avons également observé de nouvelles stratégies d’attaque qui n’apparaissaient pas dans notre campagne d’équipe humaine ni dans les rapports externes.”

Cependant, certains experts en cybersécurité doutent que l’approche d’OpenAI puisse résoudre le problème fondamental.

“Ce qui me préoccupe, c’est que nous essayons d’adapter l’un des logiciels grand public les plus sensibles à la sécurité avec une technologie qui est encore probabiliste, opaque et facile à manipuler de manière subtile”, a déclaré à Fortune Charlie Eriksen, chercheur en sécurité chez Aikido Security.

« Les équipes rouges et la recherche de vulnérabilités basées sur l’IA peuvent détecter des failles évidentes, mais elles ne modifient pas la dynamique sous-jacente. Tant que nous n’aurons pas de limites beaucoup plus claires sur ce que ces systèmes peuvent faire et sur les instructions qu’ils doivent écouter, il est raisonnable d’être sceptique quant au fait que le compromis ait du sens pour les utilisateurs quotidiens à l’heure actuelle », a-t-il déclaré. “Je pense que l’injection rapide continuera à être un problème à long terme… On pourrait même affirmer qu’il s’agit d’une fonctionnalité et non d’un bug.”

Un jeu de chat et de souris

Des chercheurs en sécurité ont également déclaré précédemment à Fortune que même si de nombreux risques de cybersécurité étaient essentiellement un jeu permanent du chat et de la souris, l’accès approfondi dont les agents d’IA ont besoin (tels que les mots de passe des utilisateurs et l’autorisation d’entreprendre des actions au nom d’un utilisateur) représentait une opportunité de menace si vulnérable qu’il n’était pas clair si ses avantages valaient le risque.

“C’est ce qui rend les navigateurs IA fondamentalement risqués”, a déclaré Eriksen. “Nous déléguons l’autorité à un système qui n’a pas été conçu avec une forte isolation ni un modèle d’autorisation clair. Les navigateurs traditionnels traitent le Web comme non fiable par défaut. Les navigateurs d’agents brouillent cette frontière en permettant au contenu de façonner le comportement, pas seulement de l’afficher.”

OpenAI recommande aux utilisateurs de donner aux agents des instructions spécifiques plutôt que de fournir un large accès avec des instructions vagues telles que « prendre les mesures nécessaires ». Le navigateur dispose également de fonctionnalités de sécurité supplémentaires, telles que le « mode de déconnexion », qui permet aux utilisateurs de l’utiliser sans partager de mots de passe, et le « mode surveillance », qui est une fonctionnalité de sécurité qui oblige l’utilisateur à confirmer explicitement des actions sensibles telles que l’envoi de messages ou l’exécution de paiements.

“La grande latitude permet aux contenus cachés ou malveillants d’influencer plus facilement l’agent, même lorsque des protections sont en place”, a déclaré OpenAI dans le blog.

Admin

Website | + posts

OpenAI affirme que les injections rapides qui peuvent tromper les navigateurs IA pourraient ne jamais être entièrement « résolues » | Fortune

Admin

Articles connexes

Meta met discrètement en œuvre des paiements stables quatre ans après avoir abandonné le projet controversé Libra | Fortune

La Cour suprême évalue l’initiative de l’administration Trump visant à mettre fin aux protections des migrants d’Haïti et de Syrie | Fortune

Meta dépense cette année jusqu’à 145 milliards de dollars en IA. Interrogé sur les signes de retour sur investissement, Zuckerberg a répondu “c’est une...

Microsoft, Meta et Google viennent d’annoncer des milliards supplémentaires de dépenses en IA. Seul Google a convaincu les investisseurs que cela portait ses fruits....

Les revenus de Google Cloud représentent désormais 18 % de l’activité d’Alphabet. Est-ce le début de la fin de l’identité de recherche Google ?...

LAISSER UN COMMENTAIRE Annuler la réponse

À propos de nous

Entreprise

À lire absolument

Une brasserie artisanale historique ferme sa taverne après avoir été vendue à une marque rivale

La journée scolaire moyenne en Chine est de 2 heures plus longue qu’aux États-Unis, avec toutes les études et aucune activité extrascolaire. Les résultats...

« Vous n’êtes pas un héros, vous êtes un handicap » : Kevin O’Leary de Shark Tank avertit les fondateurs de la génération Z...