La capacité de l’IA à « penser » la rend plus vulnérable aux nouvelles attaques de jailbreak, selon une nouvelle étude | Fortune

La capacité de l’IA à « penser » la rend plus vulnérable aux nouvelles attaques de jailbreak, selon une nouvelle étude | Fortune

De nouvelles recherches suggèrent que les modèles d’IA avancés pourraient être plus faciles à pirater qu’on ne le pensait auparavant, ce qui soulève des inquiétudes quant à la sécurité de certains des principaux modèles d’IA déjà utilisés par les entreprises et les consommateurs.

Une étude conjointe d’Anthropic, de l’Université d’Oxford et de Stanford remet en cause l’hypothèse selon laquelle plus un modèle devient avancé en matière de raisonnement (sa capacité à « réfléchir » aux demandes d’un utilisateur), plus sa capacité à rejeter les commandes nuisibles est forte.

En utilisant une méthode appelée « détournement de la chaîne de pensée », les chercheurs ont découvert que même les principaux modèles commerciaux d’IA peuvent être trompés avec un taux de réussite alarmant, supérieur à 80 % dans certains tests. Le nouveau mode d’attaque exploite essentiellement les étapes de raisonnement, ou chaîne de pensée, du modèle pour masquer les commandes nuisibles, incitant ainsi l’IA à ignorer ses protections intégrées.

Ces attaques peuvent permettre au modèle d’IA de contourner vos barrières de sécurité et potentiellement ouvrir la porte à la génération de contenus dangereux, tels que des instructions pour fabriquer des armes ou des fuites d’informations sensibles.

Une nouvelle fuite

Au cours de l’année écoulée, les grands modèles de raisonnement ont atteint des performances bien supérieures en allouant plus de temps de calcul à l’inférence, ce qui signifie qu’ils consacrent plus de temps et de ressources à analyser chaque question ou suggestion avant d’y répondre, ce qui permet un raisonnement plus profond et plus complexe. Des recherches antérieures suggéraient que ce raisonnement amélioré pourrait également améliorer la sécurité en aidant les modèles à rejeter les requêtes nuisibles. Cependant, les chercheurs ont découvert que cette même capacité de raisonnement pouvait être exploitée pour contourner les mesures de sécurité.

Selon l’étude, un attaquant pourrait cacher une requête nuisible au sein d’une longue séquence d’étapes de raisonnement inoffensives. Cela trompe l’IA en inondant son processus de réflexion de contenu inoffensif, affaiblissant ainsi les contrôles de sécurité internes destinés à détecter et à rejeter les signaux dangereux. Lors du détournement, les chercheurs ont découvert que l’attention de l’IA se concentre principalement sur les premières étapes, tandis que les instructions nuisibles à la fin du message sont presque totalement ignorées.

À mesure que la durée du raisonnement augmente, les taux de réussite des attaques augmentent considérablement. Selon l’étude, les taux de réussite sont passés de 27 % avec un raisonnement minimal à 51 % avec un raisonnement en longueur naturelle, et sont montés en flèche jusqu’à 80 % ou plus avec des chaînes de raisonnement étendues.

Cette vulnérabilité affecte presque tous les principaux modèles d’IA sur le marché aujourd’hui, notamment GPT d’OpenAI, Claude d’Anthropic, Gemini de Google et Grok de xAI. Même les modèles optimisés pour accroître la sécurité, appelés modèles « optimisés par l’alignement », commencent à échouer une fois que les attaquants exploitent leurs couches de raisonnement internes.

La mise à l’échelle des capacités de raisonnement d’un modèle est l’un des principaux moyens par lesquels les sociétés d’IA ont pu améliorer les performances globales de leur modèle frontière au cours de l’année dernière, après que les méthodes de mise à l’échelle traditionnelles aient semblé montrer des gains décroissants. Le raisonnement avancé permet aux modèles de répondre à des questions plus complexes, les aidant ainsi à agir moins comme des modèles de comparaison que comme des résolveurs de problèmes humains.

Une solution suggérée par les chercheurs est une sorte de « défense du raisonnement conscient ». Cette approche permet de suivre le nombre de contrôles de sécurité de l’IA qui restent actifs tout en analysant chaque étape d’une question. Si une étape affaiblit ces signaux de sécurité, le système la pénalise et renvoie l’attention de l’IA sur la partie potentiellement dangereuse du message. Les premiers tests montrent que cette méthode peut restaurer la sécurité tout en permettant à l’IA de bien fonctionner et de répondre efficacement aux questions normales.

Website |  + posts
spot_imgspot_img

Articles connexes

spot_imgspot_img

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici