Les anciens dirigeants de Cohere, Sara Hooker et Sudip Roy, obtiennent un tour de table de 50 millions de dollars pour leur nouvelle startup Adaption Labs | Fortune

Les anciens dirigeants de Cohere, Sara Hooker et Sudip Roy, obtiennent un tour de table de 50 millions de dollars pour leur nouvelle startup Adaption Labs | Fortune

Sara Hooker, chercheuse en IA et défenseure de systèmes d’IA moins chers et utilisant moins de puissance de calcul, s’accroche elle-même.

L’ancienne vice-présidente de la recherche de la société d’intelligence artificielle Cohere et vétéran de Google DeepMind a levé 50 millions de dollars en financement de démarrage pour sa nouvelle startup, Adaption Labs.

Hooker et son co-fondateur Sudip Roy, qui était auparavant directeur du calcul d’inférence chez Cohere, tentent de créer des systèmes d’IA qui utilisent moins de puissance de calcul et coûtent moins cher à exécuter que la plupart des principaux modèles d’IA actuels. Ils ciblent également les modèles qui utilisent diverses techniques pour être plus « adaptatifs » que la plupart des modèles existants aux tâches individuelles qu’ils sont appelés à accomplir. (D’où le nom de la startup).

Le cycle de financement est mené par Emergence Capital Partners, avec la participation de Mozilla Ventures, de la société de capital-risque Fifty Years, Threshold Ventures, Alpha Intelligence Capital, e14 Fund et Neo. Adaption Labs, basé à San Francisco, a refusé de fournir des informations sur sa valorisation à la suite de la levée de fonds.

Hooker a déclaré à Fortune qu’il souhaitait créer des modèles capables d’apprendre en permanence sans recyclage ou réglage coûteux et sans l’ingénierie contextuelle et rapide approfondie que la plupart des entreprises utilisent actuellement pour adapter les modèles d’IA à leurs cas d’utilisation spécifiques.

La création de modèles capables d’apprendre en continu est considérée comme l’un des grands défis restants de l’IA. “C’est probablement le problème le plus important sur lequel j’ai jamais travaillé”, a déclaré Hooker.

Adaption Labs représente un pari majeur contre la croyance dominante dans l’industrie de l’IA selon laquelle la meilleure façon de créer des modèles d’IA plus performants est d’agrandir les LLM sous-jacents et de les former avec plus de données. Alors que les géants de la technologie investissent des milliards dans des programmes de formation de plus en plus vastes, Hooker affirme que cette approche connaît des rendements décroissants. “La plupart des laboratoires ne quadrupleront pas la taille de leur modèle chaque année, principalement parce que nous constatons une saturation de l’architecture”, a-t-il déclaré.

Hooker a déclaré que l’industrie de l’IA était à un « point de calcul » où les améliorations ne viendraient plus de la simple construction de modèles plus grands, mais de la construction de systèmes qui peuvent être adaptés plus facilement et plus économiquement à la tâche à accomplir.

Adaption Labs n’est pas le seul « néolab » (ainsi appelé parce qu’il s’agit d’une nouvelle génération de laboratoires d’IA de pointe suite au succès d’entreprises plus établies telles que OpenAI, Anthropic et Google DeepMind) à rechercher de nouvelles architectures d’IA visant à briser l’apprentissage continu. Jerry Tworek, chercheur principal chez OpenAI, a quitté cette entreprise ces dernières semaines pour fonder sa propre startup, appelée Core Automation, et a déclaré qu’il était également intéressé par l’utilisation de nouvelles méthodes d’IA pour créer des systèmes capables d’apprendre en permanence. David Silver, ancien chercheur principal chez Google DeepMind, a quitté le géant de la technologie le mois dernier pour lancer une startup appelée Ineffable Intelligence qui se concentrera sur l’utilisation de l’apprentissage par renforcement, où un système d’intelligence artificielle apprend des actions qu’il entreprend au lieu de données statiques. Dans certains contextes, cela pourrait également conduire à des modèles d’IA capables d’apprendre en continu.

La startup de Hooker organise son travail autour de trois « piliers », a-t-il déclaré : les données adaptatives (dans lesquelles les systèmes d’IA génèrent et manipulent les données dont ils ont besoin pour répondre à un problème à la volée, plutôt que d’avoir à s’entraîner sur un vaste ensemble de données statiques) ; intelligence adaptative (qui ajuste automatiquement la quantité de calcul à dépenser en fonction de la difficulté du problème) ; et des interfaces adaptatives (apprendre de la façon dont les utilisateurs interagissent avec le système).

Depuis ses années chez Google, Hooker a acquis une réputation dans les cercles de l’IA en tant qu’opposante au dogme « l’échelle est tout ce dont vous avez besoin » de nombre de ses collègues chercheurs en IA. Dans un article de 2020 largement cité intitulé « The Hardware Lottery », il a fait valoir que les idées en matière d’IA réussissent ou échouent souvent en fonction de leur adéquation avec le matériel existant, plutôt que de leur mérite inhérent. Plus récemment, elle a rédigé un document de recherche intitulé « On the Slow Death of Scaling », qui affirmait que les modèles plus petits dotés de meilleures techniques de formation peuvent surpasser les modèles beaucoup plus grands.

Chez Cohere, il a défendu le projet Aya, une collaboration avec 3 000 informaticiens de 119 pays qui a apporté des capacités d’IA de pointe à des dizaines de langages pour lesquels les principaux modèles de pointe ne fonctionnaient pas bien, et ce, en utilisant des modèles relativement compacts. Les travaux ont montré que des approches créatives en matière de conservation et de formation des données pouvaient compenser l’échelle brute.

L’une des idées étudiées par Adaption Labs est ce que l’on appelle « l’apprentissage sans dégradé ». Tous les modèles d’IA actuels sont des réseaux neuronaux extrêmement vastes couvrant des milliards de neurones numériques. L’entraînement traditionnel aux réseaux neuronaux utilise une technique appelée descente de gradient, qui fonctionne un peu comme un randonneur aux yeux bandés essayant de trouver le point le plus bas d’une vallée en faisant de petits pas et en essayant de sentir s’il descend une pente. Le modèle apporte de petits ajustements à des milliards de paramètres internes appelés « poids » (qui déterminent dans quelle mesure un neurone donné met l’accent sur l’entrée de tout autre neurone auquel il est connecté dans sa propre sortie), vérifiant après chaque étape s’il s’est rapproché de la bonne réponse. Ce processus nécessite une énorme puissance de calcul et peut prendre des semaines ou des mois. Et une fois le modèle entraîné, ces poids sont fixés en place.

Pour affiner le modèle pour une tâche particulière, les utilisateurs s’appuient parfois sur un réglage fin. Cela implique de poursuivre la formation du modèle sur un ensemble de données plus petit et plus organisé (généralement composé de milliers ou de dizaines de milliers d’exemples) et d’apporter des ajustements supplémentaires aux pondérations du modèle. Encore une fois, cela peut coûter cher, pouvant parfois atteindre des millions de dollars.

Alternativement, les utilisateurs tentent simplement de donner au modèle des instructions ou des instructions très spécifiques sur la manière dont il doit effectuer la tâche que l’utilisateur souhaite que le modèle exécute. Hooker considère cela comme une « cascade rapide » et souligne que les invites cessent souvent de fonctionner et doivent être réécrites à chaque fois qu’une nouvelle version du modèle est publiée.

Il a déclaré que son objectif était « d’éliminer l’ingénierie rapide ».

L’apprentissage sans gradient évite de nombreux problèmes associés au réglage et à l’ingénierie rapide. Au lieu d’ajuster tous les poids internes du modèle via une formation coûteuse, l’approche d’Adaption Labs modifie le comportement du modèle dès qu’il répond à une requête, ce que les chercheurs appellent le « temps d’inférence ». Les poids de base du modèle restent intacts, mais le système peut toujours adapter son comportement en fonction de la tâche à accomplir.

“Comment mettre à jour un modèle sans toucher aux poids ?” » dit Hooker. “Il y a des innovations vraiment intéressantes dans le domaine de l’architecture et elles exploitent l’informatique de manière beaucoup plus efficace.”

Vous avez mentionné plusieurs méthodes différentes pour ce faire. L’une est la « fusion à la volée », dans laquelle un système sélectionne dans ce qui est essentiellement un répertoire d’adaptateurs (souvent de petits modèles formés séparément sur de petits ensembles de données). Ces adaptateurs façonnent ensuite la réponse du grand modèle primaire. Le modèle décide quel adaptateur utiliser en fonction de la question posée par l’utilisateur.

Une autre méthode est le « décodage dynamique ». Le décodage fait référence à la manière dont un modèle sélectionne son résultat parmi une gamme de réponses probables. Le décodage dynamique modifie les probabilités en fonction de la tâche à accomplir, sans modifier les poids sous-jacents du modèle.

“Nous ne sommes plus simplement un modèle”, a déclaré Hooker. “Cela fait partie d’une notion profonde : c’est basé sur l’interaction, et un modèle doit changer (en) temps réel en fonction de la tâche à accomplir.”

Hooker soutient que le passage à ces méthodes change radicalement l’économie de l’IA. “Le calcul le plus coûteux est le calcul de pré-entraînement, en grande partie parce qu’il représente une énorme quantité de calcul, un temps énorme. Avec le calcul d’inférence, vous obtenez beaucoup plus pour (chaque unité de puissance de calcul)”, a-t-il déclaré.

Roy, CTO d’Adaption, apporte une vaste expérience dans le fonctionnement efficace des systèmes d’IA. “Mon co-fondateur fait fonctionner les GPU extrêmement rapidement, ce qui est important pour nous en raison du composant temps réel”, a déclaré Hooker.

Hooker a déclaré qu’Adaption utiliserait les fonds de son cycle de démarrage pour embaucher davantage de chercheurs et d’ingénieurs en IA, ainsi que pour embaucher des concepteurs pour travailler sur différentes interfaces utilisateur pour l’IA au-delà de la « barre de discussion » standard utilisée par la plupart des modèles d’IA.

Website |  + posts
spot_imgspot_img

Articles connexes

spot_imgspot_img

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici