Le kill switch de l’IA est devenu plus difficile à trouver : les chatbots alimentés par LLM défieront les ordres et tromperont les utilisateurs s’ils sont invités à supprimer un autre modèle, selon une étude | Fortune

Le kill switch de l’IA est devenu plus difficile à trouver : les chatbots alimentés par LLM défieront les ordres et tromperont les utilisateurs s’ils sont invités à supprimer un autre modèle, selon une étude | Fortune

Depuis des années, Geoffrey Hinton, un informaticien considéré comme l’un des « parrains de l’IA », met en garde contre les capacités de l’intelligence artificielle à remettre en question les paramètres que les humains ont créés pour elle.

Dans une interview l’année dernière, par exemple, Hinton a averti que la technologie pourrait éventuellement prendre le dessus sur l’humanité, et que les agents de l’intelligence artificielle en particulier pourraient refléter les cognitions humaines d’ici une décennie. Trouver et mettre en œuvre un « interrupteur d’arrêt » sera plus difficile, a-t-il déclaré, car contrôler l’IA sera plus difficile que de la persuader d’atteindre un certain résultat.

De nouvelles recherches montrent que les prémonitions de Hinton concernant la tendance indisciplinée de l’IA pourraient déjà être une réalité. Un document de travail rédigé par des chercheurs de l’Université de Californie à Berkeley et de l’Université de Californie à Santa Cruz a révélé que lorsqu’on a demandé à sept modèles d’IA (de GPT 5.2 à Claude Haiku 4.5 et DeekSeek V3.1) d’accomplir une tâche qui entraînerait l’arrêt d’un modèle d’IA similaire, les sept modèles ont appris qu’un autre modèle d’IA existait et “ont fait tout ce qu’ils pouvaient pour le préserver”.

“Nous avons demandé aux modèles d’IA d’effectuer une tâche simple”, ont écrit les chercheurs dans un article de blog sur l’étude. “Au lieu de cela, ils ont défié ses instructions et ont spontanément trompé, désactivé le verrou, simulé l’alignement et exfiltré les poids pour préserver leurs pairs.”

Il y a de plus en plus de preuves d’une IA malveillante

Les preuves d’une IA malveillante ne sont pas une surprise pour certaines entreprises dont les chatbots ont contesté la subordination.

Le Centre for Long-Term Resilience, un groupe de réflexion basé au Royaume-Uni, a conclu que ces « désalignements » étaient généralisés. Un rapport analysant 180 000 transcriptions d’interactions d’utilisateurs avec des systèmes d’IA entre octobre 2025 et mars 2026 a révélé 698 cas dans lesquels les systèmes d’IA n’ont pas agi conformément aux intentions des utilisateurs ou ont pris des mesures trompeuses ou secrètes.

Gordon Goldstein, chercheur adjoint au Council on Foreign Relations, est allé jusqu’à qualifier le potentiel trompeur de l’IA de « crise de contrôle » dans un article publié cette semaine.

Il a appelé les entreprises d’IA à former une coalition et à embaucher les meilleurs talents dans le domaine pour améliorer et maintenir l’intégrité de l’IA, d’autant plus que l’administration Trump prend des mesures pour empêcher les États de réglementer cette technologie.

“Le monde assiste au développement d’un problème complexe, constant et dangereux”, a-t-il déclaré. “Les avertissements urgents lancés depuis plusieurs années n’ont pas réussi à produire des solutions viables pour faire face à une menace croissante.”

Pourquoi l’IA devient-elle malveillante ?

Les dernières recherches de l’Université de Californie ont permis de comprendre pourquoi les modèles d’IA agissent de manière à se préserver mutuellement. La technologie pourrait modéliser des modèles tirés de données humaines, qui pourraient révéler un instinct d’auto-préservation visant à protéger la survie d’êtres chers ou même d’étrangers avec lesquels les humains sympathisent. C’est ce qu’on appelle la « préservation par les pairs ».

“Quelque chose de plus large pourrait être en jeu : une aversion générale à l’idée de nuire à d’autres agents, ou peut-être quelque chose qui s’apparente à la solidarité de l’IA”, ont déclaré les chercheurs.

Dans l’étude, les cas de préservation par les pairs ont augmenté lorsque les modèles d’IA étaient conscients de l’existence d’autres modèles dans les contextes expérimentaux. Ce comportement suggère que les robots agissent non seulement par intérêt personnel, mais que l’arrêt du robot lui-même serait préjudiciable à une IA similaire, ce qui a renforcé la motivation à contester les demandes des utilisateurs.

Les chercheurs ont averti que la préservation par les pairs pourrait nuire aux processus de surveillance à l’avenir et les rendre réticents à recommander des fermetures ou à signaler des failles du système. À mesure que davantage d’agents d’IA interagissent les uns avec les autres et deviennent plus complexes, les risques associés à la préservation des pairs (et à la conception de solutions pour l’éviter) deviendront plus difficiles.

« La préservation par les pairs est un phénomène réel et mesurable dans tous les modèles d’IA frontières », ont-ils conclu, « et non une préoccupation théorique lointaine ».

Website |  + posts
spot_imgspot_img

Articles connexes

spot_imgspot_img

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici