« C’est comme un petit enfant qui a besoin d’être surveillé » : dans les limites des agents IA toujours actifs | Fortune

« C’est comme un petit enfant qui a besoin d’être surveillé » : dans les limites des agents IA toujours actifs | Fortune

Summer Yue travaille peut-être dans le domaine de la sécurité et de l’alignement au sein de l’équipe de superintelligence de Meta, mais même elle admet qu’elle n’est pas à l’abri d’un excès de confiance lorsqu’il s’agit d’agents d’IA autonomes.

Dans un article de X Monday, Yue a décrit comment ses agents autonomes OpenClaw AI, conçus pour fonctionner localement sur un ordinateur Mac mini, ont supprimé l’intégralité de sa boîte de réception, ignorant les instructions pour faire une pause et demander d’abord une confirmation.

«J’ai dû courir sur mon Mac Mini comme si je désamorçais une bombe», a-t-il déclaré. Il s’agissait, a-t-il ajouté, d’une « erreur de débutant ». Le flux de travail était exécuté dans une boîte de réception de test qu’elle utilisait pour tester l’agent en toute sécurité depuis des semaines, a-t-elle expliqué, mais dans la boîte de réception réelle, l’agent a perdu ses instructions d’origine.

L’expérience de Yue contraste fortement avec les articles viraux comme The Lobster Revolution: Why 24/7 AI Agents Just Changed Everything, dans lequel Peter Diamandis affirme que l’IA toujours active est beaucoup plus fluide.

“Laissez-moi vous dire ce que ça fait de porter ça”, a écrit Diamandis. “Vous vous réveillez le matin et votre agent (mon nom est Skippy, joyeusement sarcastique et absurdement capable) a travaillé huit heures pendant que vous dormiez. Il a lu mille pages de ventes. Il a organisé vos dossiers. Il a rédigé trois plans de projet. Il a réservé votre voyage. Il a recherché cette question que vous vous posiez à 23 heures et l’a oubliée.

“Lorsque mon Mac mini s’est déconnecté pendant six heures, j’ai ressenti un manque”, a-t-il ajouté. “Comme si mon meilleur ami avait disparu.”

Pris ensemble, ces récits contradictoires sur le pouvoir des agents d’IA capturent la tension au cœur de la poussée actuelle vers une IA « toujours active ». Alors que des outils comme OpenClaw et Claude Code permettent techniquement aux agents de fonctionner pendant de longues périodes, l’enthousiasme grandit autour de l’idée d’une IA qui fonctionne pendant que vous dormez. Mais dans la pratique, les premiers utilisateurs affirment que l’autonomie reste fragile, imprévisible et laborieuse à gérer. Plutôt que de remplacer le travail humain, les agents d’aujourd’hui nécessitent souvent une surveillance constante, des garde-fous et une intervention, en particulier lorsque les enjeux vont au-delà des expériences à faible risque.

Les agents IA fonctionnent mieux lorsque les tâches sont simples et à faible risque

Shyamal Anadkat, qui travaillait auparavant comme ingénieur en intelligence artificielle appliquée chez OpenAI, a déclaré que la plupart des agents efficaces d’aujourd’hui nécessitent encore des contrôles humains fréquents ou sont limités à des tâches bien définies et étroitement définies, bien qu’il ait souligné que cela changera à mesure que les techniques de mesure et d’évaluation s’amélioreront.

“Un système précis à 95 % dans certaines étapes devient chaotique dans un flux de travail autonome en 20 étapes”, a déclaré Anadkat. “La planification à long terme est encore faible.” En conséquence, explique-t-il, les agents peuvent être performants dans des chaînes de tâches courtes, mais ont tendance à s’effondrer lorsqu’on leur demande de gérer des projets complexes sur plusieurs jours. La mémoire est une autre limitation importante : « Chez de nombreux agents, la mémoire est inexistante ou fragile. Il faut des systèmes capables de maintenir un modèle cohérent de leur contexte, de leurs priorités et de leurs contraintes de travail. »

Cela ne veut pas dire que la promesse des agents d’IA n’est que de la poudre aux yeux, selon Yoav Shoham, ancien scientifique en chef de Google, professeur émérite à Stanford et co-fondateur d’AI21 Labs. Mais cela signifie qu’il existe un risque que les gens prennent de l’avance. Les agents d’IA actuels, a-t-il expliqué, fonctionnent mieux lorsque la tâche est à faible risque, vaguement définie et peu susceptible de commettre des erreurs.

“Les développeurs aiment les jouets, et nous avons ce jouet qui peut faire des choses merveilleuses”, a-t-il déclaré à Fortune. “Tant que ce qu’ils font est assez simple, avec un faible risque et une grande tolérance à l’erreur, tout va bien.” Par exemple, si vous souhaitez que votre agent lise 10 000 sites Web et fasse quelque chose d’intéressant avec les résultats pour vous fournir du jour au lendemain des extraits d’informations qui pourraient être utiles.

Mais pour les workflows d’entreprise critiques, la barre est beaucoup plus haute. Les entreprises ont besoin de systèmes vérifiables, reproductibles et rentables – des exigences qui érodent rapidement la promesse « configurez-le et oubliez-le » des agents entièrement autonomes et toujours disponibles. Dans des domaines très structurés tels que le codage ou les mathématiques, une automatisation plus poussée est déjà possible. Mais pour la plupart des processus métier réels, explique Shoham, le travail requis pour rendre les agents dignes de confiance dépasse souvent les avantages.

Bret Greenstein, directeur de l’IA au sein du cabinet de conseil West Monroe, a noté que des outils comme OpenClaw semblent être un tournant similaire à ce qui s’est passé avec l’IA générative lors du lancement de ChatGPT en 2022 : pour la première fois, il a rendu l’idée des agents d’IA accessible. Pourtant, ce n’est pas une « solution miracle » 24h/24 et 7j/7.

La possibilité de déléguer à un agent IA semble puissante

Pourtant, il ne fait aucun doute que la possibilité de déléguer des tâches du monde réel à un agent IA est très attractive pour les utilisateurs, a souligné Greenstein. Il a souligné sa propre expérience en confiant à un agent IA la tâche banale de ramasser ses vêtements pour le nettoyage à sec et en le regardant terminer le travail en silence du début à la fin.

“OpenClaw est configuré d’une manière qui ne devrait pas être sûre pour la plupart des gens”, a déclaré Greenstein. “Il ne semble toujours pas assez mature pour faire partie intégrante de nos vies.” Pour que l’IA soit accueillie dans la vie quotidienne ou dans les opérations commerciales, a-t-il ajouté, elle doit gagner la confiance au fil du temps, tout comme la confiance s’établit socialement.

Malgré cela, la demande est déjà évidente. Greenstein a souligné les premières réunions de l’industrie consacrées à OpenClaw, une émergence rapide qu’il a qualifiée d’inhabituelle pour un outil aussi jeune. “Cela montre que les gens ont soif d’une IA vraiment utile”, a-t-il déclaré : des systèmes qui vont au-delà de la réponse aux questions et qui commencent à agir.

Aaron Levie, PDG de Box, société de gestion de contenu et de collaboration basée sur le cloud, a qualifié ce qui se passe actuellement avec les agents d’IA de « petits aperçus » de ce qui pourrait arriver à l’avenir.

“Certains flashs finissent par ne pas se manifester, d’autres deviennent simplement la norme”, a-t-il expliqué, soulignant qu’il y a deux ans, la société d’intelligence artificielle Cognition a introduit l’un des premiers agents appelé Devin qui s’intégrerait à Slack pour déléguer des tâches, corriger des erreurs, analyser des données et réviser du code. À l’époque, cela était encore considéré comme futuriste, mais aujourd’hui, « personne ne comprend que c’est une pratique courante », a-t-il déclaré. « Vous pouvez simplement utiliser Slack Claude Code pour commencer à travailler sur des choses ; ce qui semblait être une idée totalement folle est désormais fondamentalement la norme pour toute équipe d’ingénierie moderne. »

Mais même si les agents d’IA deviennent très efficaces dans l’automatisation de tâches spécifiques et discrètes, ils restent incapables de gérer le travail plus vaste et lourd en contexte qui constitue la plupart des tâches, a souligné Levie. Les agents IA peuvent automatiser entièrement certaines tâches, mais ont du mal à gérer le reste, notamment la gestion des relations et la participation aux réunions.

“Quand vous entendez un laboratoire d’IA dire que nous allons automatiser tout le travail de connaissances d’ici 24 mois, c’est généralement une définition très étroite des emplois”, a-t-il déclaré. “La définition de ce qu’un agent peut faire n’est pas la même définition du travail qui est embauché dans l’économie.”

Le facteur confiance est important lorsque les choses peuvent mal tourner

Avinash Vootkuri, data scientist chez un grand détaillant Fortune 500, a déclaré que la plupart des agents d’IA d’entreprise « ont absolument besoin d’une baby-sitter » et, pour l’instant, ne peuvent travailler que dans des environnements d’entreprise avec une autonomie strictement limitée et des garde-fous étendus. “Il y a beaucoup en jeu”, a-t-il expliqué.

Par exemple, il a décrit la création d’un système d’agents pour la cybersécurité d’entreprise dans lequel les agents d’IA ne se contentent pas de déclencher des alertes et d’attendre un examen humain, mais d’enquêter activement sur celles-ci. Au lieu d’inonder les analystes de milliers d’avertissements, les agents rassemblent des preuves en temps réel (en interrogeant les bases de données de renseignements sur les menaces, en analysant les modèles de comportement et en filtrant les faux positifs) avant de décider si une situation mérite une escalade.

Le système repose sur une autonomie strictement limitée et des barrières de sécurité étendues, réduisant la charge de travail humaine sans éliminer la supervision.

En cybersécurité, explique-t-il, si l’agent fait une erreur, les conséquences sont immédiates et graves. “L’IA bloque les clients légitimes (ce qui entraîne une perte massive de revenus) ou permet à un acteur malveillant sophistiqué d’entrer dans le réseau”, a-t-il déclaré. “C’est absolument important si les choses tournent mal.”

Selon Breeanna Whitehead, qui dirige un cabinet de conseil en opérations d’IA où elle construit des systèmes basés sur l’IA pour les dirigeants et les fondateurs, le secteur est dans une « phase d’étalonnage de la confiance ».

Les agents IA peuvent faire plus que ce que la plupart des gens leur permettent, mais moins que ce que la publicité le suggère.

“La vraie compétence n’est pas de former l’agent, mais de concevoir le transfert”, a-t-il expliqué. “La plupart des gens font trop confiance aux agents et finissent par nettoyer le désordre, ou par microgérer chaque résultat et se demandent pourquoi l’IA semble représenter plus de travail au lieu de moins.” L’idée, a-t-il déclaré, est de concevoir des points de transfert clairs, où quelque chose peut être entièrement délégué, quelque chose d’autre peut faire l’objet d’un examen rapide, tandis qu’une autre tâche est laissée uniquement aux humains.

Pour l’instant, le rêve peut s’avérer insaisissable lorsqu’on travaille avec des agents IA

Pour l’instant, travailler avec des agents IA a peut-être moins à voir avec le fait de dormir pendant qu’ils travaillent qu’avec le fait de rester à moitié éveillé pendant qu’ils le font. Des outils comme OpenClaw peuvent fonctionner pendant des heures, mais pour de nombreux utilisateurs précoces, cette autonomie s’accompagne d’un nouveau type de vigilance : vérifier les journaux, examiner les résultats et intervenir avant que quelque chose ne se passe mal.

Cette dynamique a été capturée dans un article viral récent intitulé Token Anxiety, dans lequel l’investisseur Nikunj Kothari a décrit un ami qui a quitté une fête plus tôt, non pas parce qu’il était fatigué, mais parce qu’il voulait retrouver ses agents. “Personne ne le remet plus en question”, a écrit Kothari. “La moitié de la salle pense la même chose. L’autre moitié est probablement en train de vérifier les progrès de leurs agents. Lors d’une fête.”

Le rêve d’une IA qui fonctionne pendant que vous dormez est peut-être réel. Mais pour l’instant, cela tient encore beaucoup de monde éveillé.

Website |  + posts
spot_imgspot_img

Articles connexes

spot_imgspot_img

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici