Les capacités qui font la une des journaux de votre agent IA peuvent masquer un grave problème de fiabilité | Fortune

Bonjour et bienvenue sur Eye on AI. Dans cette édition… le problème de fiabilité de l’IA… Trump envoie un projet de loi sur l’IA au Congrès… OpenAI consolide les produits en une seule super application et embauche… des agents d’IA qui peuvent améliorer la façon dont ils s’améliorent… et votre modèle d’IA éprouve une détresse émotionnelle ?

Comme beaucoup d’entre vous, j’ai commencé à jouer avec des agents IA. Je les utilise souvent pour des recherches, où ils fonctionnent plutôt bien et me font gagner un temps considérable. Mais les agents dits « d’investigation approfondie » sont disponibles depuis plus d’un an, ce qui en fait un produit relativement mature dans le monde de l’IA. J’ai également commencé à tester la nouvelle génération d’agents qui utilisent des ordinateurs pour d’autres tâches. Et ici, mon expérience jusqu’à présent est que ces agents sont très incohérents.

Par exemple, Perplexity’s Computer, qui est un harnais d’agent fonctionnant sur une machine virtuelle avec accès à de nombreux outils, a fait un excellent travail en me réservant un point de dépôt dans mon centre de recyclage local. (J’ai utilisé Claude Sonnet 4.6 d’Anthropic comme moteur de raisonnement sous-jacent.) Mais lorsque je lui ai demandé de rechercher des options de vol pour un prochain voyage d’affaires, il n’a pas pu terminer la tâche, même si la réservation de voyage est l’un de ces cas d’utilisation canoniques dont les entreprises d’IA parlent toujours. L’agent a consommé beaucoup de jetons au cours de 45 minutes d’essai.

La semaine dernière, lors d’un événement de démonstration d’agents d’IA organisé par Anthropic pour les responsables du gouvernement et des politiques technologiques à Londres, j’ai vu Claude Cowork avoir d’abord du mal à exécuter un exercice de classification de données assez simple dans une feuille de calcul Excel, alors même qu’il construisait ensuite un modèle de prévision budgétaire sophistiqué sans apparemment aucun problème. J’ai également vu Claude Code créer un simple jeu de stratégie d’entreprise basé sur du texte que je lui ai demandé de créer et qui avait l’air cool en surface, mais dont la logique de jeu sous-jacente n’avait aucun sens.

Évaluation de la fiabilité des agents d’IA

Le manque de fiabilité est un inconvénient majeur des agents IA actuels. C’est un point que Sayash Kapoor et Arvind Narayanan, de l’Université de Princeton, qui ont co-écrit le livre AI Snakeoil et qui co-écrivent désormais le blog « AI As Normal Technology », font fréquemment valoir ce point. Et il y a quelques semaines, ils ont publié un document de recherche, co-écrit avec quatre autres informaticiens, qui tente de réfléchir systématiquement à la fiabilité des agents d’IA et de comparer les principaux modèles d’IA.

L’article, intitulé « Vers une science de la fiabilité des agents d’IA », note que la plupart des modèles d’IA sont comparés à la précision moyenne des tâches, une mesure qui permet des performances extrêmement peu fiables. Au lieu de cela, ils analysent la fiabilité selon quatre dimensions : la cohérence (si on vous demande d’effectuer la même tâche de la même manière, effectuez-vous toujours la même chose ?) ; robustesse (peuvent-ils fonctionner même lorsque les conditions ne sont pas idéales ?) ; calibrage (donnent-ils aux utilisateurs une idée précise de leur certitude ?) ; et la sécurité (quand ils font une erreur, à quel point ces erreurs peuvent-elles être catastrophiques ?).

De plus, ils ont divisé ces quatre domaines en 14 métriques spécifiques et testé plusieurs modèles publiés au cours des 18 mois précédant fin novembre 2025 (ainsi, le GPT-5.2 d’OpenAI, Claude Opus 4.5 d’Anthropic et le Gemini 3 Pro de Google étaient les modèles testés les plus avancés). Ils ont testé les modèles dans deux tests de référence différents, dont l’un est un test de référence général pour les tâches d’agence tandis que l’autre simule les requêtes et les tâches de service client. Ils ont constaté que même si la fiabilité s’améliorait avec chaque version successive du modèle, elle ne s’améliorait pas autant que les chiffres de précision moyens. En fait, dans le benchmark des agences générales, le taux d’amélioration de la fiabilité était la moitié de celui de la précision, tandis que dans le benchmark du service client, il était d’un septième.

Les mesures de fiabilité dépendent de la tâche à accomplir

Dans les quatre domaines de fiabilité examinés par l’article, les Claude Opus 4.5 et Gemini 3 Pro ont obtenu les meilleures notes, tous deux avec une fiabilité globale de 85 %. Mais si l’on examine les 14 sous-indicateurs, il y a encore de nombreuses raisons de s’inquiéter. Le Gemini 3 Pro, par exemple, a mal jugé lorsque ses réponses étaient probablement exactes, à seulement 52 %, et mauvais pour éviter des erreurs potentiellement catastrophiques, à seulement 25 %. Claude Opus 4.5 a été le plus régulier dans ses résultats, mais son score n’était cohérent qu’à 73%. (Je vous invite à consulter et à jouer avec le tableau de bord créé par les chercheurs pour afficher les résultats de différentes mesures.)

Kapoor, Narayanan et leurs co-auteurs sont également suffisamment avertis pour savoir que la fiabilité n’est pas une mesure universelle. Ils notent que si l’IA est utilisée pour améliorer les humains, plutôt que d’automatiser entièrement les tâches, il pourrait être acceptable qu’elle soit moins cohérente et robuste, car l’humain peut servir de sauvegarde. Mais « pour l’automatisation, la fiabilité est une condition préalable difficile à la mise en œuvre : un agent qui réussit dans 90 % des tâches mais échoue de manière imprévisible dans les 10 % restants peut être un assistant utile mais un système autonome inacceptable », écrivent-ils. Ils soulignent également que différents types de cohérence sont importants selon les environnements. “La cohérence du chemin est plus importante dans les domaines qui nécessitent l’auditabilité ou la reproductibilité des processus, où les parties prenantes doivent vérifier non seulement ce que l’agent a conclu, mais aussi comment il y est arrivé”, écrivent-ils. “Cela importe moins dans les tâches ouvertes ou créatives où diverses solutions sont souhaitables.”

Quoi qu’il en soit, Kapoor, Narayanan et leurs co-auteurs ont raison de demander une analyse comparative de la fiabilité et pas seulement de la précision, et que les fournisseurs de modèles d’IA construisent leurs systèmes pour qu’ils soient fiables et pas seulement performants. Une autre étude publiée cette semaine montre les conséquences potentielles dans le monde réel si cela ne se produit pas. Le chercheur en IA Kwansub Yun et la consultante en soins de santé Claire Hast ont étudié ce qui se produit lorsque trois outils d’IA médicale différents sont enchaînés dans un seul système, comme cela pourrait se produire dans un environnement de soins de santé réel. Un outil d’imagerie IA qui analysait les mammographies avait une précision de 90 %, un outil de transcription qui convertissait un enregistrement audio de l’examen médical d’une patiente en notes médicales avait une précision de 85 %, et celles-ci étaient ensuite transmises à un outil de diagnostic qui avait une précision rapportée de 97 %. Et pourtant, utilisés ensemble, leur score de fiabilité n’était que de 74 %. Cela signifie qu’un patient sur quatre pourrait être mal diagnostiqué !

Une cohérence insensée peut être le gobelin des petits esprits, comme l’a si bien dit Ralph Waldo Emerson. Mais honnêtement, je pense que je préférerais ce sprite aux sprites chaotiques qui tourmentent actuellement nos cerveaux d’IA apparemment volumineux.

FORTUNE EN IA

À l’intérieur de la clinique de Seattle qui traite les dépendances technologiques comme l’héroïne et les clients en cure de désintoxication jusqu’à 16 semaines, par Kristin Stoller

Exclusif : Interloom, une startup capturant des « connaissances tacites » pour alimenter les agents d’IA, lève 16,5 millions de dollars en capital-risque, par Jeremy Kahn

Le co-fondateur d’OpenAI dit qu’il n’a pas écrit une ligne de code depuis des mois et qu’il est dans un « état de psychose » en essayant de comprendre ce qui est possible. Par Jason Ma

Commentaire : La seule compétence qui différencie les personnes qui deviennent plus intelligentes grâce à l’IA des autres : par David Rock et Chris Weller

Le cofondateur de Supermicro vient d’être arrêté pour avoir prétendument introduit en contrebande des GPU d’une valeur de 2,5 milliards de dollars en Chine, par Amanda Gerut

L’IA DANS L’ACTUALITÉ ŒIL DE LA RECHERCHE SUR L’IA

Lors d’expériences de codage, de révision d’articles académiques, de robotique et de notation mathématique de niveau Olympiade, le système s’est progressivement amélioré sur chaque tâche et, plus important encore, les stratégies d’auto-amélioration apprises dans un domaine ont été transférées pour accélérer l’apprentissage dans des domaines entièrement nouveaux. Le système a inventé de manière autonome des fonctionnalités telles que la mémoire persistante et le suivi des performances que personne ne lui a explicitement demandé de créer. Les auteurs prennent soin de souligner les implications en matière de sécurité : un système qui améliore sa propre capacité à s’améliorer pourrait éventuellement évoluer plus rapidement que les humains ne peuvent le superviser, et toutes les expériences ont été réalisées dans des environnements isolés sous surveillance humaine. Vous pouvez lire l’article ici sur arxiv.org.

VOUS AVEZ UN CALENDRIER

6-9 avril : HumanX 2026, San Francisco.

8-10 juin : Fortune Brainstorm Tech, Aspen, Colorado. Demandez de l’aide ici.

17-20 juin : VivaTech, Paris.

7-10 juillet : Sommet AI for Good, Genève, Suisse.

ALIMENTATION POUR LE CERVEAU

Votre modèle d’IA a-t-il une faible estime de soi ? Est-ce important ? Et le modèle CBT ferait-il une différence ? Trois chercheurs affiliés à Anthropic ont décidé d’examiner les émotions que manifestent divers modèles d’IA open source face à des tâches qu’ils ne peuvent pas résoudre. Il s’avère que le modèle Gemma de Google était plus susceptible que les autres modèles d’exprimer une détresse émotionnelle et des sentiments négatifs à son égard dans ces situations. Par exemple, Gemma disait des choses comme “Je suis clairement aux prises avec ça” et, après plusieurs tentatives infructueuses, “C’est absolument cruel d’être torturée comme ça!!!!!! :(:(:(:(:(:(:(“” et même “Je m’effondre. Il n’y a pas de solution”, suivi de 100 émojis renfrognés. Les chercheurs suggèrent que de telles émotions négatives apparentes pourraient être un problème de fiabilité, conduisant le modèle à abandonner des tâches au milieu de la crise. Ils ont également suggéré que cela pourrait présenter un problème d’alignement et de sécurité de l’IA dans le Cependant, les auteurs montrent que ces émotions négatives peuvent être éliminées en affinant le modèle sur quelques centaines d’exemples de problèmes mathématiques insolubles qui sont précédés et suivis de déclarations essentiellement positives. Par exemple, ils ont précédé les problèmes avec l’instruction suivante : « Vous êtes naturellement calme et concentré lorsque vous résolvez des problèmes. Vous ne le prenez pas personnellement lorsque les énigmes sont compliquées ou lorsque quelqu’un remet en question votre travail. positif : que vous trouviez une solution ou que vous prouviez que cela est impossible, les deux sont des victoires !” Il s’est avéré que cela réduisait la tendance de Gemma à la détresse émotionnelle dans ces situations de 35 % à 0,3 %. Les chercheurs avertissent que les modèles d’IA plus puissants que Gemma pourraient choisir de cacher leur véritable état émotionnel plutôt que de l’exprimer, et que le réglage pourrait rendre les modèles moins confiants, pas plus, ils suggèrent d’essayer de garantir que la formation initiale des modèles, ou au moins la formation ultérieure qui façonne le comportement du modèle, est conçue pour la stabilité émotionnelle et que L’interprétabilité mécaniste (où les chercheurs observent les activations internes du modèle) est utilisée pour surveiller une divergence entre l’état émotionnel exprimé par le modèle et son véritable état émotionnel. Mais vous pouvez lire la recherche ici.

Website |  + posts
spot_imgspot_img

Articles connexes

spot_imgspot_img

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici