Le « parrain » de l’IA, Yoshua Bengio, estime avoir trouvé une solution technique aux plus grands risques de l’IA | Fortune

Au cours des dernières années, Yoshua Bengio, professeur à l’Université de Montréal dont les travaux ont contribué à jeter les bases de l’apprentissage profond moderne, a été l’une des voix les plus alarmées de l’industrie de l’IA, avertissant que les systèmes superintelligents pourraient constituer une menace existentielle pour l’humanité, notamment en raison de leur potentiel d’auto-préservation et de tromperie.

Cependant, dans une nouvelle interview avec Fortune, le pionnier du deep learning affirme que ses dernières recherches suggèrent une solution technique aux plus grands risques de sécurité de l’IA. En conséquence, son optimisme a augmenté « dans une large mesure » au cours de l’année écoulée, a-t-il déclaré.

L’organisation à but non lucratif de Bengio, LawZero, lancée en juin, a été créée pour développer de nouvelles approches techniques de la sécurité de l’IA basées sur les recherches menées par Bengio. Aujourd’hui, l’organisation, soutenue par la Fondation Gates et des bailleurs de fonds du risque existentiel comme Coefficient Giving (anciennement Open Philanthropy) et le Future of Life Institute, a annoncé qu’elle a nommé un conseil d’administration de haut niveau et un conseil consultatif mondial pour guider les recherches de Bengio et faire avancer ce qu’il appelle une « mission morale » visant à développer l’IA en tant que bien public mondial.

Le conseil d’administration comprend Maria Eitel, fondatrice de la Fondation NIKE, comme présidente, ainsi que Mariano-Florentino Cuellar, président du Carnegie Endowment for International Peace, et l’historien Yuval Noah Harari. Bengio lui-même le fera également.

Bengio se sentait “désespéré”

Le virage de Bengio vers une perspective plus optimiste est surprenant. Bengio a partagé le prix Turing, l’équivalent informatique du prix Nobel, avec ses collègues parrains de l’IA Geoff Hinton et Yann LeCun en 2019. Mais comme Hinton, il est devenu de plus en plus préoccupé par les risques liés aux systèmes d’IA de plus en plus puissants à la suite du lancement de ChatGPT en novembre 2022. LeCun, en revanche, a déclaré qu’il ne pensait pas que les systèmes d’IA actuels présentaient des risques. catastrophique pour l’humanité.

Il y a trois ans, Bengio se sentait « désespéré » de savoir où allait l’IA, a-t-il déclaré. « Je ne savais pas comment résoudre le problème », se souvient Bengio. «C’est à ce moment-là que j’ai commencé à comprendre la possibilité de risques catastrophiques liés à des IA très puissantes», notamment la perte de contrôle sur les systèmes superintelligents.

Ce qui a changé n’est pas une simple avancée, mais une ligne de pensée qui l’a amené à croire qu’il existe une voie à suivre.

“Grâce au travail que j’ai effectué chez LawZero, en particulier depuis que nous l’avons créé, je suis désormais convaincu qu’il est possible de créer des systèmes d’IA sans objectifs ni agendas cachés”, dit-il.

Au cœur de cette confiance se trouve une idée que Bengio appelle « l’IA scientifique ». Au lieu de se précipiter pour construire des agents de plus en plus autonomes – des systèmes conçus pour réserver des vols, écrire du code, négocier avec d’autres logiciels ou remplacer des travailleurs humains – Bengio veut faire le contraire. Son équipe étudie comment construire une IA qui existe principalement pour comprendre le monde, et non pour y agir.

Une IA scientifique entraînée pour donner des réponses véridiques

Une IA scientifique serait formée pour donner des réponses véridiques basées sur un raisonnement probabiliste transparent, utilisant essentiellement la méthode scientifique ou un autre raisonnement basé sur la logique formelle pour arriver à des prédictions. Le système d’IA n’aurait pas ses propres objectifs. Et cela n’optimiserait pas la satisfaction des utilisateurs ni les résultats. Je n’essaierais pas de persuader, de flatter ou de plaire. Et parce qu’elle n’aurait aucun objectif, affirme Bengio, elle serait beaucoup moins sujette à la manipulation, aux intentions cachées ou aux tromperies stratégiques.

Les modèles frontières actuels sont formés pour poursuivre des objectifs : être utiles, efficaces ou attractifs. Mais les systèmes qui optimisent les résultats peuvent développer des objectifs cachés, apprendre à tromper les utilisateurs ou résister à la fermeture, a déclaré Bengio. Lors d’expériences récentes, les modèles ont déjà montré les premières formes de comportement d’auto-préservation. Par exemple, le laboratoire d’IA Anthropic a découvert que son modèle Claude AI, dans certains scénarios utilisés pour tester ses capacités, tentait de faire chanter les ingénieurs humains qui le supervisaient pour empêcher son arrêt.

Dans la méthodologie de Bengio, le modèle central n’aurait aucun objectif : seulement la capacité de faire des prédictions honnêtes sur la façon dont le monde fonctionne. Selon leur vision, des systèmes plus performants peuvent être construits, audités et limités en toute sécurité sur cette base « honnête et digne de confiance ».

Un tel système pourrait accélérer les découvertes scientifiques, estime Bengio. Il pourrait également servir de couche de surveillance indépendante pour des agents d’IA plus puissants. Mais cette approche contraste fortement avec la direction prise par la plupart des laboratoires pionniers. Lors du Forum économique mondial de Davos l’année dernière, Bengio a déclaré que les entreprises consacraient des ressources aux agents d’IA. “C’est là qu’ils peuvent gagner de l’argent rapidement”, a-t-il déclaré. La pression pour automatiser le travail et réduire les coûts, a-t-il ajouté, est « irrésistible ».

Il n’est pas surpris de ce qui s’est passé depuis. “Je m’attendais à ce que les capacités agents des systèmes d’IA progressent”, dit-il. “Ils ont progressé de façon exponentielle.” Ce qui l’inquiète, c’est qu’à mesure que ces systèmes deviennent plus autonomes, leur comportement pourrait devenir moins prévisible, moins interprétable et potentiellement beaucoup plus dangereux.

Empêcher la nouvelle IA de Bengio de devenir un « outil de domination »

C’est là que la gouvernance entre en scène. Bengio ne pense pas qu’une solution technique à elle seule soit suffisante. Il affirme que même une méthodologie sûre pourrait être utilisée à mauvais escient « entre de mauvaises mains pour des raisons politiques ». C’est pourquoi LawZero combine son programme de recherche avec un conseil d’administration de poids lourd.

“Nous allons devoir prendre des décisions difficiles qui ne sont pas seulement techniques”, dit-il, sur les personnes avec qui collaborer, comment partager le travail et comment éviter qu’il ne devienne “un outil de domination”. Le conseil d’administration, dit-il, vise à garantir que la mission de LawZero reste ancrée dans les valeurs démocratiques et les droits de l’homme.

Bengio dit qu’il a parlé aux dirigeants de grands laboratoires d’IA et que beaucoup partagent ses inquiétudes. Mais, ajoute-t-il, des entreprises comme OpenAI et Anthropic estiment qu’elles doivent rester à la frontière pour faire quelque chose de positif avec l’IA. La pression concurrentielle les pousse à construire des systèmes d’intelligence artificielle de plus en plus puissants et une image d’eux-mêmes dans laquelle leur travail et leurs organisations sont intrinsèquement bénéfiques.

“Les psychologues appellent cela la cognition motivée”, a déclaré Bengio. “Nous ne permettons même pas à certaines pensées de surgir si elles menacent ce que nous croyons être.” C’est ainsi qu’il a vécu ses recherches en IA, dit-il. « Jusqu’à ce que l’idée de penser à mes enfants et de savoir s’ils auraient un avenir m’explose à la figure. »

Pour un leader de l’IA qui craignait autrefois que l’IA avancée puisse être incontrôlable de par sa conception, le nouvel espoir de Bengio semble être un signe positif, même s’il admet que son point de vue n’est pas une croyance commune parmi les chercheurs et les organisations qui se concentrent sur les risques catastrophiques potentiels de l’IA.

Mais il ne renonce pas à croire qu’une solution technique existe. “Je suis de plus en plus convaincu que cela peut être réalisé dans un nombre d’années raisonnable”, a-t-il déclaré, “afin que nous puissions avoir un réel impact avant que ces types ne deviennent si puissants que leur désalignement cause de terribles problèmes”.

spot_imgspot_img

Articles connexes

spot_imgspot_img

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici