
Si une équipe d’ingénieurs humains créait un navigateur Web qui ne fonctionnait qu’à moitié, les gens ne parleraient pas. Mais lorsque Michael Truell, PDG de la startup de codage Cursor, a publié un article sur
Pourquoi tout ce tapage ? Deux grandes raisons : d’une part, la capacité d’attention de l’IA a toujours été courte. Au début de ChatGPT, les modèles pouvaient rester concentrés sur leur tâche pendant quelques secondes seulement. Cet horizon s’étendait aux minutes pour les meilleurs modèles, puis aux heures. Le projet Cursor prétend être l’une des premières fois qu’un système d’IA a soutenu un projet logiciel complexe et ouvert pendant une semaine entière sans assistance humaine.
De plus, les agents IA uniques sont limités à de petites tâches ciblées. Mais rassembler des centaines d’agents pour se coordonner sur un grand projet semble encore futuriste. C’est pourquoi Cursor voulait voir jusqu’où ils pouvaient pousser le codage autonome (sur un projet qui pourrait prendre des mois pour une équipe humaine) en ayant un « orchestre » d’agents IA travaillant ensemble. Un système d’IA pourrait-il être suffisamment persistant et fonctionner suffisamment bien ensemble pour explorer le code, diviser le travail en morceaux, déboguer et continuer à avancer pendant des jours sans s’écarter de la tâche à accomplir ?
Un « orchestre » d’agents IA
Les chercheurs ont constaté que la réponse était majoritairement oui. L’expérience Cursor a orchestré des centaines d’agents dans une sorte d’équipe logicielle. Il y avait des « planificateurs », des « travailleurs » et des « juges » qui coordonnaient des millions de lignes de code. Cela indique ce que Cursor et OpenAI disent être un avenir proche dans lequel l’IA aidera non seulement les employés, mais prendra en charge des projets entiers. Cela changerait fondamentalement la manière dont un travail complexe est effectué, d’abord dans le développement de logiciels, mais ensuite dans d’autres professions.
Des expériences avec des essaims d’IA sont menées depuis quelques années maintenant. Mais aujourd’hui, Cursor affirme que les modèles sont plus intelligents et peuvent rester cohérents beaucoup plus longtemps. Les modèles peuvent être exécutés à une échelle beaucoup plus grande, avec une couche personnalisée qui organise des centaines d’agents et les empêche de sombrer dans le chaos.
Jonas Nelle, un ingénieur chez Cursor qui travaille sur des agents d’IA à longue durée de vie, a déclaré à Fortune qu’à mesure que les modèles d’IA continuent de s’améliorer, les ingénieurs et les chercheurs devraient revoir leurs hypothèses tous les quelques mois sur ce que les modèles d’IA peuvent faire. Même s’il a admis qu’il “ne téléchargerait ni ne supprimerait Chrome aujourd’hui”, le projet de navigateur était “certainement meilleur que tout ce que les modèles précédents auraient pu faire”.
Ces agents à longue durée de vie constituent une frontière importante, a ajouté Bill Chen, un ingénieur OpenAI qui effectue des tests de résistance et évalue le comportement réel des modèles de l’entreprise. La durée d’une tâche et le fait qu’un système d’IA puisse l’exécuter de manière autonome et cohérente est un “très bon indicateur de l’intelligence et de la généralité d’un système”, a-t-il déclaré. Le projet Cursor, qui s’appuie sur GPT-5.2 d’OpenAI, est “le résultat direct de notre progression continue des limites des capacités des modèles”. À l’avenir, a-t-il déclaré, il y aura des tests à horizon encore plus long.
Les essaims d’agents IA ne sont pas prêts pour une utilisation en entreprise
Pourtant, ce ne sont pas des systèmes prêts pour la production. En plus d’être bogué et incomplet, un projet qui fait fonctionner des essaims d’agents pendant des jours ou des semaines coûte cher. Même si les prix ont fortement chuté au cours de l’année écoulée, les emplois de longue durée impliquant des centaines d’agents d’IA peuvent encore faire grimper les coûts.
Il y a aussi des problèmes de sécurité. Un système autonome soulève des inquiétudes concernant les vulnérabilités, les fuites de données, etc., et nécessite de nombreux nouveaux niveaux de contrôle et d’auditabilité.
Mais Chen a déclaré qu’il envisageait un avenir proche dans lequel quelque chose comme celui-ci pourrait être prêt « pour une consommation généralisée et à un coût non prohibitif. Les progrès ont été constants jusqu’à présent, a-t-il expliqué, et il y a eu des progrès significatifs à chaque étape du processus. Pour l’instant, a-t-il dit, l’enthousiasme est motivé par le fait qu’il s’agit d’un exemple réel et pratique de la capacité du modèle, « par rapport à la façon dont ce modèle fonctionne dans les évaluations et les benchmarks universitaires et publics ».
Ce changement a surpris même les observateurs les plus chevronnés de l’IA. Dans un article récent, le chercheur indépendant Simon Willison a prédit que d’ici 2029, quelqu’un construirait un navigateur Web complet utilisant principalement l’intelligence artificielle, ce qui ne serait même pas surprenant. “Développer un nouveau navigateur Web est l’un des projets logiciels les plus compliqués que je puisse imaginer”, a-t-il écrit. Le curseur a peut-être accéléré cette chronologie. “J’ai peut-être reculé de trois ans”, a déclaré Willison. “Je dois admettre que je suis très surpris de voir quelque chose d’aussi performant émerger si rapidement.”
Cela témoigne de ce qu’OpenAI et d’autres ont appelé un « surplus de capacités » : l’idée selon laquelle les modèles d’IA les plus sophistiqués peuvent faire bien plus que ce qui est déployé publiquement, mais que la bonne combinaison d’outils, de conception de produits et de baisses de coûts peut soudainement les rendre utilisables à grande échelle. Ainsi, même si des outils tels que le navigateur Cursor ne sont pas encore prêts à être diffusés aux heures de grande écoute, la trajectoire est claire.



