Le 21 avril 2026, OpenAI a sorti gpt-image-2 et en douze heures il a pris la première place de toutes les catégories du leaderboard Image Arena avec un écart Elo de +242, le plus large jamais enregistré sur ce benchmark. Le précédent recordman, Nano Banana 2, s'est retrouvé à deux cent quarante-deux points de retard, dans un système où cinq points signifient déjà qu'un modèle a pris une longueur d'avance. Ce n'est pas une release. C'est un reset de leaderboard.

Le nom du modèle dans l'API est gpt-image-2. Le nom produit côté ChatGPT est ChatGPT Images 2.0. Même moteur. OpenAI a aussi confirmé que DALL-E 2 et DALL-E 3 seront tous les deux retirés le 12 mai 2026. Tout le chapitre génération qui a commencé avec DALL-E en 2021 se ferme dans six jours.

Cet article est la fiche technique, pas l'éditorial. Specs, pourcentages de précision, victoires et défaites en head-to-head, tiers tarifaires, et l'arbitrage d'intégration si vous arbitrez entre gpt-image-2, Midjourney v8.1, Nano Banana Pro et Flux 2 Pro pour de la production cette semaine.

Que sort exactement OpenAI le 21 avril 2026 ?

La fiche modèle, sans habillage. gpt-image-2 est le premier modèle image d'OpenAI avec du raisonnement natif intégré dans l'architecture, ce qu'OpenAI appelle le mode Thinking. Il génère jusqu'à huit images depuis un seul prompt, avec continuité des personnages et des objets sur le batch. Sortie native en 2K. Ratios d'aspect de 3:1 à 1:3, ce qui couvre carré, portrait, paysage et ultrawide sans passer par un upscaler externe.

Deux modes d'opération sortent au launch. Instant renvoie une image rapidement, avec la nouvelle barre qualité mais sans étape de planification. Thinking permet au modèle de raisonner sur le layout, de chercher des références sur le web pendant la génération, et de vérifier sa propre sortie avant livraison. D'après le post de lancement OpenAI, l'architecture de raisonnement permet au modèle d'auto-vérifier ses sorties avant livraison, ce qui pèse surtout pour la cohérence des personnages sur plusieurs frames et pour la précision du texte dans l'image.

Le modèle est aussi intégré directement dans Codex, l'environnement de génération de code d'OpenAI, ce qui permet à un développeur de générer des mockups UI à la volée à côté du code qui les utilise. C'est un changement de workflow pour les équipes front-end. Le modèle est arrivé sur ChatGPT grand public le 22 avril, avec l'API officielle exposant gpt-image-2 par son nom prévue début mai 2026, d'après la roadmap d'OpenAI.

Le calendrier de retrait est serré. OpenAI a confirmé que DALL-E 2 et DALL-E 3 s'éteindront le 12 mai 2026, soit vingt-et-un jours après la sortie de gpt-image-2. Toute base de code en prod qui appelle DALL-E 3 a moins d'une semaine pour migrer.

Le score Elo qui justifie le mot reset

Le chiffre clé est 1512. C'est le score Elo text-to-image de gpt-image-2 sur LM Arena, le benchmark public alimenté par les votes humains. Le précédent leader, Nano Banana 2 de Google, était à environ 1270 le jour de la sortie. L'écart de 242 points est le plus large jamais enregistré sur l'Arena entre numéro un et numéro deux dans cette catégorie. Pour calibrer : l'écart typique entre les trois premiers modèles d'une catégorie tourne entre cinq et vingt points Elo. Un écart de 242 points, c'est environ douze à cinquante fois la dispersion habituelle.

En douze heures de présence, gpt-image-2 était numéro un sur toutes les catégories d'Image Arena, pas seulement text-to-image. Cela couvre la génération stylisée, le photoréalisme, le rendu multilingue, et les layouts denses. TechCrunch a confirmé le sweep le 21 avril 2026, et Axios a publié les mêmes chiffres le même jour. Le pattern qui compte ici n'est pas que gpt-image-2 ait gagné. C'est qu'il ait gagné sur des catégories où il était attendu derrière Midjourney sur l'esthétique et Nano Banana Pro sur le photoréalisme.

Le score est un instantané. Le Elo bouge avec les nouvelles releases et l'accumulation de votes. Nano Banana Pro et Midjourney v8.1 Alpha ont des updates attendues d'ici fin mai. D'ici juin, l'écart va se compresser. Le signal à garder : le jour du lancement, gpt-image-2 a obtenu une avance générationnelle simultanée sur toutes les scorecards de l'Arena, un profil qu'aucun modèle image n'a eu depuis la sortie originale de DALL-E 3 fin 2023.

Quelle est vraiment la précision du rendu texte ?

C'est la claim la plus difficile à vérifier parce qu'il n'y a pas de benchmark standard pour la précision du texte dans l'image. Le blog d'OpenAI annonce 99% de précision caractère sur les scripts latins. Les revues indépendantes publiées le lendemain du launch situent le chiffre latin entre 95% et 99% selon la graisse de fonte et la complexité du prompt. Les scripts non-latins arrivent plus bas, mais largement au-dessus de tout modèle précédent. Voici la matrice consolidée à partir du post de lancement OpenAI, du benchmark AVB du 22 avril, et du walk-through de Phygital+ publié le même jour.

Sur les scripts latins (anglais, français, espagnol), gpt-image-2 sort entre 95% et 99% de précision caractère selon la graisse de fonte et la complexité du prompt. DALL-E 3 plafonnait à environ 71% sur les mêmes prompts. Sur le chinois (simplifié et traditionnel), le japonais et le coréen, le nouveau modèle tient au-dessus de 90%, là où DALL-E 3 stagnait sous 50% en produisant souvent du gibberish. Hindi et bengali passent aussi la barre des 90% sur gpt-image-2, alors qu'ils étaient en pratique non supportés avant. Le rendu droite-à-gauche en arabe et hébreu reste partiel : les exemples mêmes d'OpenAI ne montrent qu'un succès partiel, et la sortie RTL est à traiter comme un draft plutôt qu'un livrable, jusqu'à nouvel ordre.

L'implication pratique est directe. Si votre produit injecte du texte dans des images (mockups UI, infographies, cartes sociales, mockups packaging, ads multilingues, menus de resto, supports pédagogiques), le goulot d'étranglement qui définissait toutes les générations précédentes disparaît pour les scripts latins et CJK. Le RTL reste la seule zone ouverte.

Ce seul changement, plus que l'architecture de raisonnement, est ce qui tue DALL-E commercialement. DALL-E 3 produisait du gibberish au-delà de huit caractères de texte dans l'image. gpt-image-2 produit un menu imprimable avec les bons prix. C'est l'écart, en une phrase.

Où gpt-image-2 gagne, où il perd

Le benchmark d'avril le plus propre sur cette question est le test "Echoes of Tokyo" d'AI Video Bootcamp, publié le 22 avril et mis à jour le 30 avril. Même prompt, huit modèles, zéro retry, plus haut tier qualité chez chaque modèle. Les capacités testées en une seule image : typo latine, typo multilingue, layout dense avec six blocs de texte, photoréalisme cinéma, contrôle de palette, respect du ratio. Résultats consolidés.

Là où gpt-image-2 prend la victoire nette : le texte dense dans l'image (Midjourney v8.1 plafonne autour de 71-78% de précision caractère, Nano Banana Pro et Flux 2 Pro derrière), la typographie multilingue sur les scripts CJK et indiens, la planification de layout via le mode Thinking (capacité que les trois autres modèles n'ont pas), et le batch de 8 images cohérentes depuis un seul prompt.

Là où il perd. Sur le photoréalisme cinéma, Nano Banana Pro garde l'avance, avec Flux 2 Pro deuxième et Midjourney v8.1 collé. Sur la texture peau et le portrait, Nano Banana Pro repasse devant. Sur le mood et la lumière, Midjourney v8.1 n'a pas été délogé. Et sur la vitesse brute, Midjourney v8.1 Alpha tourne environ 3x plus vite que la v7, ce qui le place devant le mode Instant de gpt-image-2 pour l'itération rapide.

Lisez ces résultats par cas d'usage, pas par gagnant absolu. Si votre livrable est une affiche avec du texte, une infographie, un mockup UI, une carte sociale multilingue, ou un visuel qui doit se lire en petite taille, gpt-image-2 est le seul bon choix aujourd'hui. Si votre livrable est un hero shot produit, une éditorialisation mode, ou n'importe quoi où la peau et le rendu matière sont la valeur, Nano Banana Pro garde l'avance. Si le travail est mood et atmosphère (pochettes d'album, moodboards de film, direction artistique conceptuelle), Midjourney v8.1 tient.

Conséquence pour les studios et les équipes produit. Prévoyez de faire tourner deux ou trois modèles en parallèle, pas un seul. L'hypothèse single-tool de l'ère DALL-E 3 est terminée. Choisissez le modèle par capacité, pas par abonnement.

Le mode Thinking est le vrai changement architectural

Mettons de côté le bruit du leaderboard. Le changement substantiel : gpt-image-2 est le premier modèle image qui planifie avant de dessiner. Le mode Thinking exécute trois étapes que la génération précédente ne pouvait pas faire. D'abord, il raisonne sur la composition (où va le texte, comment l'espace négatif se découpe, quelle est la hiérarchie focale), de la même manière qu'un directeur artistique humain croque avant de raffiner. Ensuite, il va chercher des données de référence sur le web pendant la génération, ce qui veut dire qu'un prompt qui mentionne un monument précis ou une marque peut intégrer une vraie référence visuelle plutôt que la mémoire du dataset d'entraînement. Enfin, il auto-vérifie sa sortie avant livraison, en régénérant les éléments qui échouent à un test de cohérence interne.

Deux conséquences en aval embarquent avec le modèle. Phygital+ a documenté l'édition zonale le 22 avril : l'utilisateur peut masquer une zone d'une génération existante et reprompter uniquement cette zone, sans re-générer le reste de l'image. C'est le workflow qui ferme enfin l'écart avec le generative fill de Photoshop. Le contrôle d'angle caméra, documenté le 22 avril également, permet à un prompt de spécifier "low angle, three-quarter view, 35mm" comme un réalisateur cadre une scène, avec une obéissance raisonnable.

Ce qui ne marche pas encore. Le post de lancement d'OpenAI reconnaît trois modes d'échec : la cohérence des modèles physiques (gravité, poids, contact), les détails répétitifs fins (cottes de mailles, motifs floraux denses, schémas scientifiques), et l'édition itérative au-delà de la deuxième révision. Les diminishing returns arrivent vite à la troisième ou quatrième passe : le modèle perd la trace de ce qui devait rester constant. La lecture honnête, c'est que le mode Thinking livre un saut générationnel sur la planification et la vérification, mais que l'intuition physique sous-jacente n'a pas changé.

À noter : ce changement architectural va dans la même direction qu'Anthropic avec Claude Design plus tôt en avril, qu'on a couvert dans notre article sur Anthropic qui enterre le handoff design. Les deux labs parient sur le fait que raisonner avant de rendre produit un meilleur output créatif que scaler la génération brute. Avril 2026 sera probablement le mois où ce pari a commencé à payer.

Quel plan acheter, vraiment ?

Le tiering est gaté et mérite d'être lu attentivement avant de signer. Le tier Free a uniquement le mode Instant : pas de Thinking, pas d'API. Plus à vingt dollars par mois débloque le mode Thinking (référence web, batching multi-images, vérification de sortie, planification de layout), mais sans API. Pro à deux cents dollars par mois ajoute Thinking prioritaire au-dessus de tout ce qu'offre Plus, toujours sans API. Business et Enterprise ouvrent l'accès direct à l'API gpt-image-2 par-dessus le Thinking complet. L'endpoint API direct, qui ouvre début mai 2026, est la quatrième voie pour les cas d'usage embarqués.

Le tier Free récupère la barre qualité avec le mode Instant, mais perd tout ce qui justifie le buzz du launch : référence web, batching multi-images, vérification de sortie, planification de layout. Donc "tout le monde a le nouveau modèle" est vrai sur le papier et faux en pratique. La douve produit, c'est Thinking, et Thinking est derrière le paywall à vingt dollars par mois minimum.

Pour les studios et les équipes produit, la décision pertinente est entre Plus à vingt dollars pour les créateurs individuels, Pro à deux cents dollars pour le volume de prod avec Thinking prioritaire, et l'accès API direct pour les cas d'usage embarqués. L'API devrait coûter dans les eaux des appels image GPT-4o, OpenAI confirmant début mai pour l'endpoint public gpt-image-2. On suit ce type de roll-out d'outils agentiques de près, notamment dans notre article sur les Claude Managed Agents et la stratégie de marque, qui pose un constat connexe sur l'écart entre ce que montre un free tier et ce qu'exige un travail en prod.

L'arbitrage propre d'intégration pour un studio qui livre du client cette semaine. Plus ou Pro pour visualisation et exploration. L'API dès qu'elle ouvre en mai pour toute pipeline de prod qui appelle des images programmatiquement. gpt-image-2 en parallèle de Nano Banana Pro pour le travail photoréalisme et de Midjourney v8.1 pour le travail mood, sur les livrables hybrides. Attendre juin pour des benchmarks stables avant de consolider sur un seul outil. Le leaderboard n'a pas fini de bouger.

Si vous voulez creuser les arbitrages d'intégration pour votre propre pipeline, on fait des audits techniques dans le cadre de nos services. Ou regardez les projets qu'on a construits où ce type d'arbitrage de capacités est tout le métier.

Sources

Partager