Les nouveaux outils de sécurité de l’IA d’OpenAI pourraient donner un faux sentiment de sécurité | Fortune

Les nouveaux outils de sécurité de l’IA d’OpenAI pourraient donner un faux sentiment de sécurité | Fortune

OpenAI a dévoilé la semaine dernière deux nouveaux outils téléchargeables gratuitement, censés permettre aux entreprises de créer plus facilement des garde-fous autour des signaux que les utilisateurs alimentent dans les modèles d’IA et des résultats générés par ces systèmes.

Les nouveaux garde-corps sont conçus pour qu’une entreprise puisse, par exemple, mettre en place plus facilement des contrôles pour empêcher un chatbot du service client de répondre sur un ton grossier ou de révéler des politiques internes sur la manière dont elle doit prendre des décisions concernant l’offre de remboursements, par exemple.

Mais si ces outils sont conçus pour rendre les modèles d’IA plus sécurisés pour les entreprises clientes, certains experts en sécurité préviennent que la manière dont OpenAI les a publiés pourrait créer de nouvelles vulnérabilités et donner aux entreprises un faux sentiment de sécurité. Et tandis qu’OpenAI affirme avoir publié ces outils de sécurité pour le bien commun, certains se demandent si les motivations d’OpenAI sont motivées en partie par le désir d’atténuer un avantage dont dispose son rival en matière d’IA, Anthropic ; Il gagne du terrain parmi les utilisateurs professionnels en partie à cause de la perception que ses modèles Claude ont des mains courantes plus robustes que celles des autres concurrents.

Les outils de sécurité d’OpenAI, appelés gpt-oss-safeguard-120b et gpt-oss-safeguard-20b, sont eux-mêmes un type de modèle d’IA connu sous le nom de classificateur, conçu pour évaluer si le message qu’un utilisateur envoie à un modèle d’IA plus grand et plus généraliste, ainsi que ce que ce modèle d’IA plus grand produit, est conforme à un ensemble de règles. Dans le passé, les entreprises qui achetaient et déployaient des modèles d’IA pouvaient former elles-mêmes ces classificateurs, mais le processus prenait du temps et était potentiellement coûteux, car les développeurs devaient collecter des exemples de contenus violant les politiques afin de former le classificateur. Et puis, si l’entreprise voulait ajuster les politiques utilisées pour les garde-corps, elle devrait collecter de nouveaux exemples de violations et recycler le classificateur.

OpenAI espère que de nouveaux outils pourront rendre ce processus plus rapide et plus flexible. Au lieu d’être formés à suivre des règles fixes, ces nouveaux classificateurs de sécurité peuvent simplement lire une politique écrite et l’appliquer à un nouveau contenu.

Selon OpenAI, cette méthode, qu’elle appelle « classification basée sur le raisonnement », permet aux entreprises d’ajuster leurs politiques de sécurité aussi facilement que de modifier le texte d’un document au lieu de reconstruire tout un modèle de classification. La société positionne cette version comme un outil destiné aux entreprises qui souhaitent mieux contrôler la manière dont leurs systèmes d’IA traitent les informations sensibles, telles que les dossiers médicaux ou les dossiers du personnel.

Cependant, alors que les outils sont censés être plus sécurisés pour les entreprises clientes, certains experts en sécurité affirment qu’ils peuvent plutôt donner aux utilisateurs un faux sentiment de sécurité. En effet, OpenAI dispose de classificateurs d’IA open source. Cela signifie qu’ils ont rendu disponible gratuitement tout le code des classificateurs, y compris les poids ou la configuration interne des modèles d’IA.

Les classificateurs agissent comme des barrières de sécurité supplémentaires pour un système d’IA, conçues pour arrêter les messages non sécurisés ou malveillants avant qu’ils n’atteignent le modèle principal. Mais en les ouvrant, OpenAI court le risque de partager les plans de ces portes. Cette transparence pourrait aider les chercheurs à renforcer les mécanismes de sécurité, mais elle pourrait également permettre aux mauvais acteurs de découvrir plus facilement les faiblesses et les risques, créant ainsi une sorte de faux confort.

“Rendre ces modèles open source peut aider à la fois les attaquants et les défenseurs”, a déclaré à Fortune David Krueger, professeur de sécurité de l’IA à Mila. “Cela facilitera le développement d’approches permettant de contourner les classificateurs et autres garanties similaires.”

Par exemple, lorsque les attaquants ont accès aux poids du classificateur, ils peuvent plus facilement développer ce que l’on appelle des attaques « à injection rapide », dans lesquelles ils créent des signaux qui incitent le classificateur à ignorer la politique qu’il est censé appliquer. Les chercheurs en sécurité ont découvert que dans certains cas, même une série de personnages qui semblent dénués de sens pour une personne peuvent, pour des raisons que les chercheurs ne comprennent pas entièrement, persuader un modèle d’IA d’ignorer ses barrières de sécurité et de faire quelque chose qu’il n’est pas censé faire, comme proposer des conseils pour fabriquer des bombes ou lancer des insultes racistes.

Les représentants d’OpenAI ont dirigé Fortune vers l’annonce du billet de blog et du livre blanc de la société sur les modèles.

Douleur à court terme pour gain à long terme

L’open source peut être une arme à double tranchant en matière de sécurité. Il permet aux chercheurs et aux développeurs de tester, d’améliorer et d’adapter les mesures de protection de l’IA plus rapidement, augmentant ainsi la transparence et la confiance. Par exemple, les chercheurs en sécurité pourraient avoir la possibilité d’ajuster la pondération du modèle pour le rendre plus résistant à l’injection rapide sans dégrader les performances du modèle.

Mais cela peut également permettre aux attaquants d’étudier et de contourner plus facilement ces mêmes protections ; par exemple, utiliser d’autres logiciels d’apprentissage automatique pour exécuter des centaines de milliers de messages possibles jusqu’à ce que vous trouviez ceux qui permettront au modèle de contourner ses garde-fous. De plus, les chercheurs en sécurité ont découvert que ces types d’attaques par injection rapide générées automatiquement et développées sur des modèles d’IA open source fonctionnent parfois également contre des modèles d’IA propriétaires, dans lesquels les attaquants n’ont pas accès au code sous-jacent ou aux pondérations des modèles. Les chercheurs ont émis l’hypothèse que cela était dû au fait qu’il pourrait y avoir quelque chose d’inhérent dans la façon dont tous les grands modèles de langage codent le langage qui permette à des injections rapides similaires de réussir contre n’importe quel modèle d’IA.

De cette manière, l’ouverture des classificateurs peut non seulement donner aux utilisateurs un faux sentiment de sécurité selon lequel leur propre système est bien protégé, mais peut en réalité rendre chaque modèle d’IA moins sécurisé. Mais les experts ont déclaré que ce risque valait probablement la peine d’être pris, car le libre accès aux classificateurs devrait également permettre à tous les experts en sécurité du monde de trouver plus facilement des moyens de rendre les classificateurs plus résistants à ce type d’attaques.

“À long terme, il est bénéfique de partager le fonctionnement des défenses. Cela peut entraîner une certaine douleur à court terme. Mais à long terme, cela se traduit par des défenses robustes qui sont en réalité assez difficiles à contourner”, a déclaré Vasilios Mavroudis, chercheur scientifique principal à l’Institut Alan Turing.

Mavroudis a déclaré que même si l’open source des classificateurs pourrait, en théorie, permettre à quelqu’un d’essayer plus facilement de contourner les systèmes de sécurité dans les principaux modèles OpenAI, la société pense probablement que ce risque est faible. Il a déclaré qu’OpenAI avait d’autres garanties en place, notamment le fait que des équipes d’experts en sécurité humaine essayaient continuellement de tester les barrières de sécurité de ses modèles pour trouver des vulnérabilités et, espérons-le, les améliorer.

“L’open source d’un modèle de classificateur donne à ceux qui veulent contourner les classificateurs l’opportunité d’apprendre comment le faire. Mais les jailbreakers déterminés réussiront probablement de toute façon”, a déclaré Robert Trager, co-directeur de l’IA Governance Initiative d’Oxford Martin.

“Nous avons récemment découvert une méthode qui contournait les mesures de protection de tous les principaux développeurs environ 95 % du temps, et nous ne recherchions pas cette méthode. Puisque les jailbreakers déterminés réussiront de toute façon, il est utile d’avoir des systèmes open source que les développeurs peuvent utiliser pour des personnes moins déterminées”, a-t-il ajouté.

La course à l’IA d’entreprise

Le lancement a également des implications concurrentielles, d’autant plus qu’OpenAI cherche à concurrencer la présence croissante de la société rivale d’IA Anthropic parmi les entreprises clientes. La famille de modèles d’IA Claude d’Anthropic est devenue populaire auprès des entreprises clientes en partie en raison de sa réputation de contrôle de sécurité plus strict que les autres modèles d’IA. Parmi les outils de sécurité utilisés par Anthropic figurent les « classificateurs constitutionnels » qui fonctionnent de manière similaire à ceux qu’OpenAI vient de rendre open source.

Anthropic s’est taillé un marché de niche parmi les entreprises clientes, notamment en matière de codage. Selon un rapport de juillet de Menlo Ventures, Anthropic détient 32 % de la part de marché des modèles linguistiques pour grandes entreprises en termes d’utilisation, contre 25 % pour OpenAI. Dans les cas d’utilisation spécifiques au codage, Anthropic détient 42 %, tandis qu’OpenAI en détient 21 %. En proposant des outils destinés aux entreprises, OpenAI peut tenter de convaincre certaines de ces entreprises clientes tout en se positionnant comme un leader en matière de sécurité de l’IA.

Les « classificateurs constitutionnels » d’Anthropic consistent en de petits modèles de langage qui comparent les résultats d’un modèle plus large à un ensemble écrit de valeurs ou de politiques. En ouvrant une capacité similaire, OpenAI offre effectivement aux développeurs le même type de garde-fous personnalisables qui ont contribué à rendre les modèles d’Anthropic si attrayants.

“D’après ce que j’ai vu dans la communauté, cela semble être bien accueilli”, a déclaré Mavroudis. “Ils voient le modèle comme un moyen potentiel d’auto-modération. Il a également une bonne connotation, comme dans “Nous redonnons”. C’est probablement aussi un outil utile pour les petites entreprises qui ne seraient pas en mesure de former elles-mêmes un tel modèle.”

Certains experts craignent également que le libre accès à ces classificateurs de sécurité ne centralise ce qui est considéré comme une IA « sûre ».

“La sécurité n’est pas un concept bien défini. Toute mise en œuvre de normes de sécurité reflétera les valeurs et les priorités de l’organisation qui les crée, ainsi que les limites et les défauts de leurs modèles”, a déclaré John Thickstun, professeur adjoint d’informatique à l’Université Cornell, à VentureBeat. “Si l’industrie dans son ensemble adopte les normes développées par OpenAI, nous risquons d’institutionnaliser une perspective particulière sur la sécurité et d’entraver une recherche plus large sur les besoins de sécurité des déploiements d’IA dans de nombreux secteurs de la société.”

Website |  + posts
spot_imgspot_img

Articles connexes

spot_imgspot_img

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici