mars 2025 - Head Of Digital

Chez OpenAI, nous avons toujours considéré que la génération d’images devait être une composante naturelle des modèles de langage. Aujourd’hui, avec GPT‑4o, cette vision devient réalité : un générateur d’images intégré, capable de produire des visuels non seulement esthétiques, mais aussi utiles, précis et fidèles au contexte.

Une génération d’images enrichie par le langage
GPT‑4o ne se contente pas de produire de belles images : il comprend l’intention derrière chaque demande. Grâce à sa capacité multimodale native, le modèle peut générer des images détaillées, interpréter des descriptions complexes, et ajuster le style, le format ou le contenu en fonction des instructions écrites. Que ce soit pour une infographie, une scène réaliste ou une planche de BD, le résultat est adapté à l’objectif visuel.

Exemple

Et voici le prompt : A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer’s reflection.

The text reads:

(left)
« Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive »

(Right)
« Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder »

On the bottom right of the board, she draws a diagram:
« tokens -> [transformer] -> [diffusion] -> pixels »

Et la suite:

selfie view of the photographer, as she turns around to high five him

L’intelligence visuelle au service de la clarté

Des premiers symboles gravés dans la pierre aux diagrammes numériques modernes, l’image a toujours été un puissant outil de transmission d’idées. GPT‑4o est entraîné pour dépasser l’aspect décoratif : il comprend la fonction de l’image, qu’il s’agisse d’informer, d’illustrer ou d’enseigner. Il excelle notamment dans le rendu de texte dans l’image, la composition logique et le respect des conventions graphiques.

Dialoguer pour créer
La nouveauté majeure réside dans l’interaction naturelle : vous pouvez discuter avec GPT‑4o pour faire évoluer une image étape par étape. Chaque visuel est généré en tenant compte du contexte textuel et visuel du chat, permettant d’obtenir une cohérence sur plusieurs itérations (idéal pour créer des personnages, des scènes de jeux vidéo, ou des prototypes produits).

Une compréhension profonde du contexte

Grâce à son entraînement croisé sur des données textuelles et visuelles, GPT‑4o établit des liens pertinents entre langage et image. Il sait interpréter une image que vous téléchargez, en tirer des éléments utiles pour vos créations, et même générer des versions alternatives selon différents styles ou objectifs.

Précision, réalisme, et diversité

Que ce soit pour représenter des objets concrets, des scènes du quotidien ou des mondes imaginaires, GPT‑4o propose une qualité visuelle impressionnante, allant jusqu’au photoréalisme. Il peut gérer des compositions complexes, respecter les proportions, les couleurs exactes (y compris les codes hexadécimaux), ou même ajouter des effets de lumière et des textures réalistes.

Exemple : Prends ce chat et donne lui un chapeau et un monocle

Résultat

Limites connues (et en amélioration)

Bien que GPT‑4o établisse un nouveau standard, certaines limites persistent :

Le rendu des langues non latines reste perfectible.

Des erreurs peuvent apparaître lors d’éditions ciblées dans une image existante.

Le modèle peut parfois recadrer de manière trop agressive ou générer des éléments imprécis en contexte flou.

La densité d’informations reste difficile à restituer dans un très petit espace.

Ces axes font déjà l’objet d’améliorations continues.

Sécurité et traçabilité intégrées
Toutes les images générées incluent des métadonnées conformes à la norme C2PA, permettant d’identifier leur origine et de garantir leur authenticité. Des mécanismes internes de vérification permettent également de retracer les créations. Les contenus sensibles, offensants ou non conformes à nos règles d’utilisation sont bloqués de manière proactive, avec un engagement fort en matière d’éthique et de responsabilité.

Disponibilité et accès
La génération d’images avec GPT‑4o est désormais accessible pour tous les utilisateurs (Free, Plus, Pro et Team) directement dans ChatGPT. Son intégration dans l’API, les comptes Enterprise et Edu est prévue dans les semaines à venir. Le processus est simple : il suffit de décrire votre image, de spécifier vos préférences, et GPT‑4o s’occupe du reste.

La génération d’images entre dans une nouvelle dimension : plus intuitive, plus créative et plus précise.

Google DeepMind dévoile aujourd’hui Gemini 2.5, sa version d’IA la plus avancée à ce jour. Cette itération, en version expérimentale baptisée Gemini 2.5 Pro Experimental, surpasse les principaux benchmarks actuels grâce à des capacités de raisonnement et de programmation de très haut niveau.

Une IA qui réfléchit avant d’agir
Gemini 2.5 a été conçu pour traiter des problématiques complexes en s’appuyant sur une logique de réflexion active. Contrairement aux générations précédentes, ce modèle n’agit plus uniquement sur la base de prédictions statistiques : il est désormais capable d’analyser une situation, de prendre du recul et de raisonner avant de répondre.

Ce type d’approche permet à l’intelligence artificielle de mieux comprendre le contexte, d’interpréter les nuances et de produire des réponses plus pertinentes, plus cohérentes et plus précises.

Ce progrès repose sur des années de recherche autour de l’apprentissage par renforcement et de l’incitation via chaînes de pensée (Chain-of-Thought prompting). Ces travaux avaient déjà permis la sortie de Gemini 2.0 Flash Thinking, un modèle de réflexion rapide. Aujourd’hui, avec 2.5, une nouvelle étape est franchie.

Gemini 2.5 Pro : le nouveau standard

La version Pro Experimental du modèle 2.5 établit de nouveaux records dans les classements d’intelligence artificielle, notamment dans le LMArena, qui mesure les préférences humaines face aux réponses produites par divers modèles.

Ce modèle excelle dans de nombreuses disciplines, notamment :

Le raisonnement avancé
Le codage informatique
Les mathématiques et les sciences

Gemini 2.5 Pro est dès maintenant accessible dans Google AI Studio et via l’application Gemini pour les utilisateurs de l’offre Gemini Advanced. Son intégration à Vertex AI est prévue dans les prochaines semaines, avec une offre tarifaire bientôt disponible pour un usage intensif en entreprise.

Des capacités de raisonnement hors norme

Sans recourir à des stratégies d’évaluation complexes comme le vote majoritaire, Gemini 2.5 Pro s’impose sur des tests exigeants comme GPQA ou AIME 2025.

Il affiche notamment un score exceptionnel de 18,8 % sur « Humanity’s Last Exam », un jeu de données élaboré par plusieurs centaines d’experts pour simuler les limites de la connaissance humaine.

Une avancée spectaculaire dans le domaine du code

Gemini 2.5 Pro se distingue particulièrement dans la génération de code, notamment pour :

Créer des applications web et visuelles
Manipuler du code complexe
Éditer, corriger et transformer des programmes existants

Sur le benchmark de référence SWE-Bench Verified, il obtient un score remarquable de 63,8 %, en mode agent personnalisé.

Ce modèle est capable de produire des applications à partir d’une simple ligne de texte, illustrant sa capacité à combiner raisonnement et créativité.

L’ADN Gemini : contexte étendu et multimodalité

Gemini 2.5 s’appuie sur les forces historiques de la famille Gemini :

Une compréhension multimodale native (texte, image, vidéo, audio, code)
Une fenêtre de contexte ultra-large : jusqu’à 1 million de jetons, et bientôt 2 millions, permettant de traiter d’immenses volumes de données dans un même échange

Cela en fait un outil idéal pour les entreprises et les développeurs souhaitant aborder des projets complexes et hétérogènes.

Comment l’essayer ?

Vous pouvez dès maintenant découvrir Gemini 2.5 Pro via :

Google AI Studio
L’application Gemini (en sélectionnant « 2.5 Pro » sur ordinateur ou mobile)
Et très bientôt : Vertex AI

Source : https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#building-on-best-gemini

HoD

HoD

Head of digital

Agence digitale basée à Paris