GPT‑4o : une nouvelle ère pour la création d’images intelligentes

Chez OpenAI, nous avons toujours considéré que la génération d’images devait être une composante naturelle des modèles de langage. Aujourd’hui, avec GPT‑4o, cette vision devient réalité : un générateur d’images intégré, capable de produire des visuels non seulement esthétiques, mais aussi utiles, précis et fidèles au contexte.

Une génération d’images enrichie par le langage
GPT‑4o ne se contente pas de produire de belles images : il comprend l’intention derrière chaque demande. Grâce à sa capacité multimodale native, le modèle peut générer des images détaillées, interpréter des descriptions complexes, et ajuster le style, le format ou le contenu en fonction des instructions écrites. Que ce soit pour une infographie, une scène réaliste ou une planche de BD, le résultat est adapté à l’objectif visuel.

Exemple

Et voici le prompt : A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer’s reflection.

The text reads:

(left)
« Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive »

(Right)
« Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder »

On the bottom right of the board, she draws a diagram:
« tokens -> [transformer] -> [diffusion] -> pixels »

Et la suite:

selfie view of the photographer, as she turns around to high five him

L’intelligence visuelle au service de la clarté

Des premiers symboles gravés dans la pierre aux diagrammes numériques modernes, l’image a toujours été un puissant outil de transmission d’idées. GPT‑4o est entraîné pour dépasser l’aspect décoratif : il comprend la fonction de l’image, qu’il s’agisse d’informer, d’illustrer ou d’enseigner. Il excelle notamment dans le rendu de texte dans l’image, la composition logique et le respect des conventions graphiques.

Dialoguer pour créer
La nouveauté majeure réside dans l’interaction naturelle : vous pouvez discuter avec GPT‑4o pour faire évoluer une image étape par étape. Chaque visuel est généré en tenant compte du contexte textuel et visuel du chat, permettant d’obtenir une cohérence sur plusieurs itérations (idéal pour créer des personnages, des scènes de jeux vidéo, ou des prototypes produits).

Une compréhension profonde du contexte

Grâce à son entraînement croisé sur des données textuelles et visuelles, GPT‑4o établit des liens pertinents entre langage et image. Il sait interpréter une image que vous téléchargez, en tirer des éléments utiles pour vos créations, et même générer des versions alternatives selon différents styles ou objectifs.

Précision, réalisme, et diversité

Que ce soit pour représenter des objets concrets, des scènes du quotidien ou des mondes imaginaires, GPT‑4o propose une qualité visuelle impressionnante, allant jusqu’au photoréalisme. Il peut gérer des compositions complexes, respecter les proportions, les couleurs exactes (y compris les codes hexadécimaux), ou même ajouter des effets de lumière et des textures réalistes.

Exemple : Prends ce chat et donne lui un chapeau et un monocle

Résultat

Limites connues (et en amélioration)

Bien que GPT‑4o établisse un nouveau standard, certaines limites persistent :

Le rendu des langues non latines reste perfectible.

Des erreurs peuvent apparaître lors d’éditions ciblées dans une image existante.

Le modèle peut parfois recadrer de manière trop agressive ou générer des éléments imprécis en contexte flou.

La densité d’informations reste difficile à restituer dans un très petit espace.

Ces axes font déjà l’objet d’améliorations continues.

Sécurité et traçabilité intégrées
Toutes les images générées incluent des métadonnées conformes à la norme C2PA, permettant d’identifier leur origine et de garantir leur authenticité. Des mécanismes internes de vérification permettent également de retracer les créations. Les contenus sensibles, offensants ou non conformes à nos règles d’utilisation sont bloqués de manière proactive, avec un engagement fort en matière d’éthique et de responsabilité.

Disponibilité et accès
La génération d’images avec GPT‑4o est désormais accessible pour tous les utilisateurs (Free, Plus, Pro et Team) directement dans ChatGPT. Son intégration dans l’API, les comptes Enterprise et Edu est prévue dans les semaines à venir. Le processus est simple : il suffit de décrire votre image, de spécifier vos préférences, et GPT‑4o s’occupe du reste.

La génération d’images entre dans une nouvelle dimension : plus intuitive, plus créative et plus précise.

HoD

HoD

Head of digital

Agence digitale basée à Paris