OpenAI lance un nouveau modèle d’imagerie alors qu’il s’efforce de dépasser Nano Banana de Google dans le cadre de l’aventure Code Red | Fortune

OpenAI a lancé aujourd’hui un nouveau modèle d’imagerie phare dans le but de répondre aux inquiétudes récentes selon lesquelles il serait à la traîne de ses concurrents dans la course à la capture de l’état d’esprit des consommateurs et des entreprises.

Le nouveau modèle d’imagerie permet une édition d’images plus précise et peut générer des images jusqu’à quatre fois plus rapidement que l’IA d’imagerie précédente d’OpenAI, a indiqué la société dans un article de blog. Il a déclaré que le nouveau modèle, ainsi qu’une nouvelle fonctionnalité d’imagerie dans ChatGPT, sont conçus pour rendre la génération d’images « agréable ».

Selon un article de blog d’OpenAI, les nouvelles images ChatGPT sont déployées aujourd’hui auprès de tous les utilisateurs de ChatGPT et des utilisateurs d’API dans le monde entier. La société a déclaré qu’elle fonctionne sur tous les modèles, les utilisateurs n’ont donc pas besoin de sélectionner un modèle spécifique dans le menu déroulant pour l’utiliser.

“Nous pensons que nous n’en sommes encore qu’au début de ce que l’imagerie peut permettre”, a déclaré la société dans son blog. “La mise à jour d’aujourd’hui constitue un pas en avant important et il y a encore beaucoup à venir, depuis des modifications plus détaillées jusqu’à des résultats plus riches et plus détaillés dans toutes les langues.”

Bien que cela puisse ressembler à un cadeau de Noël pour les utilisateurs fidèles de ChatGPT, le personnel d’OpenAI a été très occupé à répondre au mémo “Code Red” du Père Noël (c’est-à-dire le PDG) Sam Altman après Thanksgiving, qui visait à pousser l’entreprise à améliorer ChatGPT au cours des huit prochaines semaines dans un contexte de concurrence intense de la part de ses rivaux, notamment Google.

Le modèle Gemini de Google a pris de l’ampleur après le lancement de son modèle d’imagerie, Nano Banana, en août. Google a déclaré que le nombre d’utilisateurs actifs mensuels était passé de 450 millions en juillet à 650 millions en octobre.

La dernière version de la société, Nano Banana Pro, est devenue virale après sa sortie le 20 novembre, grâce à la nouvelle capacité du modèle à gérer proprement le texte sur les images (quelque chose qui était un problème épineux depuis des années). Les utilisateurs ont également été captivés par la capacité de Nano Banana Pro à produire des diagrammes et des infographies logiques, et par le fait qu’il permettait aux utilisateurs de modifier leurs images plutôt que de les régénérer à partir de zéro.

La semaine dernière, OpenAI a publié la dernière version de son modèle de texte, GPT-5.2 ; Depuis lors, les observateurs du secteur attendent de voir si l’entreprise publierait un nouveau modèle d’image avant le nouvel an. Mais sera-t-il suffisant pour surpasser Google ?

Fidji Simo, PDG des applications chez OpenAI, a écrit dans un article de Substack que l’interface de chat de ChatGPT n’a pas été conçue à l’origine pour aller au-delà du texte. Le nouveau modèle d’image est donc accompagné d’un « point d’entrée dédié » dans ChatGPT pour les images qui fonctionne davantage comme un « studio de création », disponible dans la barre latérale via l’application mobile et sur le Web.

“Les nouveaux écrans de visualisation et d’édition d’images facilitent la création d’images qui correspondent à votre vision ou qui s’inspirent des tendances et des filtres prédéfinis”, a-t-il écrit. “En plus de cela, notre nouveau modèle est plus rapide et plus efficace pour suivre des instructions détaillées pour des modifications et des transformations créatives plus précises.” Le modèle peut conserver des éléments clés tels que l’éclairage, la composition et la similarité entre ce que les utilisateurs entrent et ce que le modèle produit, “de sorte que les résultats sont beaucoup plus proches de ce que vous avez imaginé”, a-t-il ajouté.

Néanmoins, Nano Banana Pro peut encore avoir un avantage en termes d’engagement mental précoce. Dans une récente interview avec Fortune, Allie Miller, conseillère en IA et investisseur, a expliqué qu’elle avait récemment assisté à un événement de type Shark Tank organisé par Mark Cuban et qu’elle avait été choquée par ce qui s’était passé lorsque Cuban avait prononcé les mots “Nano Banana”.

Elle espérait que la mention du générateur d’images IA au nom fantaisiste de Google pourrait semer la confusion parmi les milliers de personnes dans l’auditoire, que Miller a décrites comme étant pour la plupart nouvelles dans le domaine de l’IA. Au lieu de cela, la foule a hoché la tête en signe de reconnaissance.

Comme ChatGPT lui-même, a-t-il expliqué, “il existe certains outils ou modèles d’IA dont vous entendez parler encore et encore et qui occupent une place importante dans la culture pop”.

Reste à voir si les elfes d’OpenAI pourront rendre leurs nouvelles images ChatGPT aussi irrésistibles que les jouets les plus recherchés de la saison. Mais ce moment, qui survient au milieu du Code Red de l’entreprise, souligne une réalité plus large : si la qualité des modèles compte toujours dans la course à l’IA, il s’agit de plus en plus d’une bataille pour le cœur et l’esprit des consommateurs.

Website |  + posts
spot_imgspot_img

Articles connexes

spot_imgspot_img

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici