Le pari de Nvidia sur Groq montre que les aspects économiques de la construction de puces IA ne sont toujours pas résolus

Nvidia a bâti son empire de l’IA sur les GPU. Mais son pari de 20 milliards de dollars sur Groq suggère que la société n’est pas convaincue que les GPU à eux seuls domineront la phase la plus importante de l’IA à ce jour : l’exécution de modèles à grande échelle, connue sous le nom d’inférence.

La bataille à gagner dans l’inférence de l’IA concerne bien entendu son aspect économique. Une fois qu’un modèle est formé, tout ce qu’il fait utile (répondre à une requête, générer du code, recommander un produit, résumer un document, alimenter un chatbot ou analyser une image) se produit lors de l’inférence. C’est le moment où l’IA passe d’un coût irrécupérable à un service générateur de revenus, avec toute la pression qui l’accompagne pour réduire les coûts, réduire la latence (le temps qu’il faut attendre pour qu’une IA réponde) et améliorer l’efficacité.

Cette pression est exactement la raison pour laquelle l’inférence est devenue le prochain champ de bataille de l’industrie pour des profits potentiels, et pourquoi Nvidia, dans le cadre d’un accord annoncé juste avant les vacances de Noël, a acquis une licence sur la technologie de Groq, une startup qui construit des puces conçues spécifiquement pour une inférence d’IA rapide et à faible latence, et a embauché la plupart de son équipe, y compris le fondateur et PDG Jonathan Ross.

L’inférence est la « révolution industrielle » de l’IA

Le PDG de Nvidia, Jensen Huang, a été explicite sur le défi de l’inférence. Tout en affirmant que Nvidia est “excellent dans chaque phase de l’IA”, il a déclaré aux analystes lors de la conférence téléphonique sur les résultats du troisième trimestre de la société en novembre que la conclusion était “très, très difficile”. Loin d’être un simple cas de message d’entrée et de réponse de sortie, l’inférence moderne doit prendre en charge un raisonnement continu, des millions d’utilisateurs simultanés, une faible latence garantie et des contraintes de coûts impitoyables. Et les agents d’IA, qui doivent gérer plusieurs étapes, augmenteront considérablement la demande et la complexité de l’inférence, ainsi que les risques de se tromper.

“Les gens pensent que l’inférence est ponctuelle et donc facile. N’importe qui peut aborder le marché de cette façon”, a déclaré Huang. “Mais cela s’avère être le plus difficile de tous, car il s’avère que réfléchir est assez difficile.”

Le soutien de Nvidia à Groq souligne cette conviction et souligne que même l’entreprise qui domine la formation en IA évite de savoir comment finira l’économie d’inférence.

Huang a également été franc sur le rôle central de l’inférence dans la croissance de l’IA. Lors d’une récente conversation sur le podcast BG2, Huang a déclaré que l’inférence représente déjà plus de 40 % des revenus liés à l’IA et a prédit qu’ils sont « sur le point d’augmenter d’un milliard de fois ».

“C’est la partie que la plupart des gens n’ont pas complètement intériorisée”, a déclaré Huang. “C’est de cette industrie dont nous parlions. C’est la révolution industrielle.”

La confiance du PDG contribue à expliquer pourquoi Nvidia est disposé à se couvrir de manière agressive sur la manière dont les inférences seront fournies, même si les aspects économiques sous-jacents restent non résolus.

Nvidia veut accaparer le marché de l’inférence

Nvidia couvre ses paris pour s’assurer de mettre la main sur tous les segments du marché, a déclaré Karl Freund, fondateur et analyste principal chez Cambrian AI Research. “C’est un peu comme si Meta acquérait Instagram”, a-t-il expliqué. “Ce n’est pas qu’ils pensaient que Facebook était mauvais, ils savaient simplement qu’il existait une alternative dont ils voulaient s’assurer qu’elle ne leur fasse pas concurrence.”

Et cela même si Huang avait fait de fortes affirmations sur l’économie de la plate-forme Nvidia existante pour faire des inférences. “Je soupçonne qu’ils ont constaté que cela ne résonnait pas aussi bien auprès des clients qu’ils l’espéraient, ou peut-être qu’ils ont vu quelque chose dans l’approche basée sur la mémoire des puces qu’ont adoptée Groq et une autre société appelée D-Matrix”, a déclaré Freund, faisant référence à une autre start-up de puces d’IA rapides et à faible latence soutenue par Microsoft qui a récemment levé 275 millions de dollars pour une valorisation de 2 milliards de dollars.

Freund a déclaré que l’entrée de Nvidia dans Groq pourrait dynamiser l’ensemble de la catégorie. “Je suis sûr que D-Matrix est une startup plutôt heureuse en ce moment, car je soupçonne que leur prochain cycle aura une valorisation beaucoup plus élevée grâce à (l’accord Nvidia-Groq)”, a-t-il déclaré.

D’autres dirigeants de l’industrie affirment que les aspects économiques de l’inférence de l’IA évoluent à mesure que l’IA dépasse les chatbots pour s’orienter vers des systèmes en temps réel comme les robots, les drones et les outils de sécurité. Ces systèmes ne peuvent pas se permettre les retards liés à l’envoi et à la réception de données vers le cloud, ni le risque que la puissance de calcul ne soit pas toujours disponible. Au lieu de cela, ils préfèrent les puces spécialisées comme celle de Groq aux clusters centralisés de GPU.

Behnam Bastani, fondateur et PDG d’OpenInfer, qui se concentre sur l’exécution d’inférences d’IA à proximité de l’endroit où les données sont générées, comme sur des appareils locaux, des capteurs ou des serveurs plutôt que dans des centres de données cloud distants, a déclaré que sa startup cible ces types d’applications à la « périphérie ».

Le marché de l’inférence, a-t-il souligné, en est encore à ses balbutiements. Et Nvidia cherche à accaparer ce marché avec son accord avec Groq. Les aspects économiques de l’inférence n’étant toujours pas résolus, il a déclaré que Nvidia essayait de se positionner comme l’entreprise qui couvre l’ensemble de la pile matérielle d’inférence, plutôt que de miser sur une seule architecture.

“Cela positionne Nvidia comme un plus grand groupe”, a-t-il déclaré.

Le pari de Nvidia sur Groq montre que les aspects économiques de la construction de puces IA ne sont toujours pas résolus | Fortune

Articles connexes

La société de logiciels de planification financière Datarails vise à perturber l’IA avant que quelqu’un d’autre ne le fasse | Fortune

Les sports professionnels veulent plus de fans féminines. Puis les Hawks ont prévu une soirée avec Magic City | Fortune

Oracle surprend les investisseurs avec une « hypercroissance » de 22 %, mais son flux de trésorerie se réduit à 24,7 milliards de dollars | Fortune

L’Iran serait en train de poser des mines dans le détroit d’Ormuz ; Trump menace de riposter “20 fois plus fort” | Fortune

Polymarket se tourne vers Palantir AI pour contrôler les paris sportifs avant qu’il ne soit trop tard | Fortune

LAISSER UN COMMENTAIRE Annuler la réponse

À propos de nous

Entreprise

À lire absolument

Le chiffre d’affaires de Ford Motor Company (F) au troisième trimestre a augmenté de 9 % ; adj. baisse des bénéfices | rue alpha

Les nutriments des cultures favorisent la récupération de la mosaïque – AlphaStreet News

Walmart vend un bistro super résistant de 430 $ pour 161 $