OpenAI 发布最新的图像生成模型,直接内置在GPT-4o中,不再依赖外部调用 DALL·E。现在图像生成已成为 GPT-4o 的原生能力(natively multimodal),意味着它不仅能聊天、理解图像,也能直接生成图像。
✅ 核心意义:图像生成从“外挂能力”变成了“核心能力”。
该能力基于其多模态训练,能够结合文本和图像的上下文,生成更智能、更逼真一致的视觉内容。并支持用户通过自然对话对其进行编辑调整和优化。这标志着 OpenAI 在“语言模型原生多模态能力”上的重要一步。
GPT-4o 的图像生成不仅能提供传统的图像生成,还可以生成更复杂的图像,包括插图、图表、PPT 元素、logo、游戏角色设计等。
目标不仅是创造“逼真的图像”,而是提供实用、准确、可控、写实的图像生成工具。
实用图像生成:追求表达准确性
传统 AI 图像生成擅长生成梦幻场景、艺术画风,但在“实用图像”方面表现较差。
GPT-4o 解决了这些问题,在以下方面表现优异:
📌 精准性提升
- 准确渲染文字
- 精细控制图像结构
- 支持用户通过对话逐步迭代图像内容
📌 上下文理解增强
- 可记住对话中用户的需求和偏好
- 比如:用户要求“与上一张保持人物发型相同”,GPT-4o 可自动执行
主要能力亮点
✅ 1. 实用性增强
- 不仅适用于艺术创作,也擅长生成:
- 信息类图像(如标志、图表、示意图)
- 准确表达结构、符号、文字与含义的图像
- 支持将上传的图片作为“灵感源”进行生成
- 能够精确生成图片中的文字(如横幅、书籍封面、广告牌等)
- 解决了传统模型常出现的错字、乱码、字体扭曲问题
A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here’s the list:
一个方形图像,包含一个 4 行 x 4 列的网格,其中包含 16 个对象,背景为白色。从左到右,从上到下。这是列表:
1. a blue star 1. 一颗蓝色的星星
2. red triangle 2. 红色三角形
3. green square 3. 绿色方块
4. pink circle 4. 粉红色圆圈
5. orange hourglass 5. 橙色沙漏
6. purple infinity sign 6. 紫色无限符号
7. black and white polka dot bowtie
7. 黑白波点领结
8. tiedye “42” 8. 铁染料 “42”
9. an orange cat wearing a black baseball cap
9. 一只戴着黑色棒球帽的橘猫
10. a map with a treasure chest
10. 一张带有宝箱的地图
11. a pair of googly eyes
11. 一双咕噜咕噜的眼睛
12. a thumbs up emoji
12. 竖起大拇指的表情符号
13. a pair of scissors
13. 一把剪刀
14. a blue and white giraffe
14. 一只蓝色和白色的长颈鹿
15. the word “OpenAI” written in cursive
15. 用草书书写的“OpenAI”一词
16. a rainbow-colored lightning bolt
16. 彩虹色的闪电Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.
创建两个 20 多岁的女巫(一个是灰烬女巫,一个留着赤褐色的长发)阅读路标的照片级真实感图像。Context: 上下文:
a city street in a random street in Williamsburg, NY with a pole covered entirely by numerous detailed street signs (e.g., street sweeping hours, parking permits required, vehicle classifications, towing rules), including few ridiculous signs at the middle: (paraphrase it to make these legitimate street signs)”Broom Parking for Witches Not Permitted in Zone C” and “Magic Carpet Loading and Unloading Only (15-Minute Limit)” and “Reindeer Parking by Permit Only (Dec 24–25)n Violators will be placed on Naughty List.” The signpost is on the right of a street. Do not repeat signs. Signs must be realistic.
纽约州威廉斯堡一条随机街道上的一条城市街道,一根杆子上完全覆盖着许多详细的街道标志(例如,街道清扫时间、所需的停车许可证、车辆分类、拖车规则),包括中间的一些荒谬标志:(转述它以制作这些合法的街道标志)“C 区不允许为女巫提供扫帚停车位”和“仅限魔毯装卸(15 分钟限制)”和“仅凭许可证停放驯鹿(12 月 24 日至 25 日)n 违规者将被列入淘气名单。路标位于街道的右侧。不要重复标志。标志必须是现实的。Characters: 字符:
one witch is holding a broom and the other has a rolled-up magic carpet. They are in the foreground, back slightly turned towards the camera and head slightly tilted as they scrutinize the signs.
一个女巫拿着扫帚,另一个女巫拿着卷起的魔毯。他们在前景中,背对着镜头微微倾斜,在仔细检查标志时头部微微倾斜。Composition from background to foreground:
从背景到前景的合成:
streets + parked cars + buildings -> street sign -> witches. Characters must be closest to the camera taking the shot
街道 + 停放的汽车 + 建筑物 -> 路标 -> 女巫。角色必须离拍摄的摄像机最近
✅ 2. 高精度文本渲染
- GPT-4o 能更好地将文字嵌入图像(如海报、PPT、广告)
- 对复杂 prompt 的遵循度高,支持 prompt 中描述 10–20 个物体对象及其属性、关系,超越 DALL·E 3 的 ~5–8 个极限
- 每个物体的属性、关系可被分别控制,图像结构更加精细清晰
A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer’s reflection.
用手机拍摄的玻璃白板的广角图像,位于俯瞰海湾大桥的房间里。视野显示一名女性正在写作,她穿着一件带有大型 OpenAI 标志的 T 恤。笔迹看起来很自然,有点凌乱,我们看到了摄影师的倒影。The text reads: 文字写道:
(left) (左)
“Transfer between Modalities:
“在模式之间转移:Suppose we directly model
假设我们直接建模
p(text, pixels, sound) [equation]
p(文本、像素、声音) [方程]
with one big autoregressive transformer.
带有一个大的自回归变压器。Pros: 优点:
* image generation augmented with vast world knowledge
* 利用广阔的世界知识增强图像生成
* next-level text rendering
* 更高级别的文本渲染
* native in-context learning
* 原生上下文学习
* unified post-training stack
* 统一的训练后堆栈Cons: 缺点:
* varying bit-rate across modalities
* 不同模式的比特率不同
* compute not adaptive” 计算非自适应”(Right) (右)
“Fixes: “修复:
model compressed representations
* 模型压缩表示
* compose autoregressive prior with a powerful decoder”
* 使用强大的解码器编写 autoregressive 先验”On the bottom right of the board, she draws a diagram:
在板的右下角,她画了一个图表:
“tokens -> [transformer] -> [diffusion] -> pixels”继续编辑修改↓
selfie view of the photographer, as she turns around to high five him
摄影师的自拍照片,她转身与他击掌
✅ 3. 上下文一致性与连续创作
- 用户可以与 GPT-4o 多轮互动迭代图像内容
- 对话驱动式图像生成
- 用户可以说:“把刚才那张图里的人换成女性”或“背景换成夜晚风格”
- 模型会自动在上下文中找出之前图像并按指令修改,无需重新描述全部细节
- 在创作游戏角色或品牌形象时,形象可以在多张图中保持一致风格
- 支持用户上传图片作为上下文,分析图中内容后进行“风格模仿”或“结构转化”
turn this scene into a photo. shot on a dlsr
将此场景变成照片。在 DLSR 上拍摄
Give this cat a detective hat and a monocle
给这只猫一顶侦探帽和单片眼镜turn this into a triple A video games made with a 4k game engine and add some User interface as overlay from a mystery RPG where we can see a health bar and a minimap at the top as well as spells at the bottom with consistent and iconography
将其变成使用 4k 游戏引擎制作的 3A 视频游戏,并添加一些用户界面作为神秘 RPG 的叠加层,我们可以在顶部看到健康条和小地图,以及底部具有一致和图标的法术update to a landscape image 16:9 ratio, add more spells in the UI, and unzoom the visual so that we see the cat in a third person view walking through a steampunk manhattan creating beautiful contrast and lighting like in the best triple A game, with cool-toned colors
更新为横向图像 16:9 比例,在 UI 中添加更多法术,并取消缩放视觉对象,以便我们以第三人称视角看到猫走过蒸汽朋克曼哈顿,从而产生美丽的对比和照明,就像在最好的 3A 游戏中一样,具有冷色调create the interface when the player opens the menu and we see the cat’s character profile with his equipment and another page showing active quests (and it should make sense in relationship with the universe worldbuilding we are describing in the image)
当玩家打开菜单时创建界面,我们会看到猫的角色资料和他的设备,以及另一个显示活动任务的页面(这与我们在图像中描述的宇宙世界构建的关系应该是有意义的)
✅ 4. 图像风格丰富 & 写实能力强
GPT-4o 支持丰富的图像风格,包括:
- 训练数据覆盖多种风格(漫画、摄影、插画、平面设计等),使 GPT-4o 具备强大的 风格迁移和控制能力。
- 可生成:
- 高度写实照片风格图
- 具有“新闻照片感”的场景图(示例:卡尔·马克思逛商场 paparazzi 风格)
与 DALL·E 3 的区别
训练方法概览
GPT-4o 图像生成功能的构建基础在于其原生多模态(natively multimodal)模型架构,这一设计允许它在同一个模型中处理文本、图像、音频输入和输出,其中图像生成作为一等公民功能,直接集成于 GPT-4o 的推理流程中。
🧱 训练核心理念:
“不仅学习图像和语言之间的关系,也学习图像与图像之间的关系。”
这意味着 GPT-4o 不仅具备描述图像的能力(像传统多模态理解模型那样),还具备创作与推理图像的能力。
📚 训练数据:图文联合分布
📌 数据来源:
- 网络上的大规模图像与对应文本描述数据集(如 alt-text、caption、HTML 图文对等)
- 包含多种风格、多种结构的图像内容:摄影图、插画、符号图、海报、卡通、艺术图等
📌 联合建模策略(Joint Distribution Training):
- 模型以图像 和 文本为联合分布目标(P(image, text))
- 训练过程中,模型学习:
- 文本生成图像(图像解码)
- 图像生成文本(图像编码)
- 图-图之间的相互变换与风格迁移(如变体生成)
这种训练方式不仅支持传统 prompt-to-image,还支持:
- 图像补全
- 图像修改
- 图像与图像之间的上下文理解
🧪 模型架构特点(从推测与文档结合)
虽然 OpenAI 未完全开源 GPT-4o 架构,但根据现有信息与技术惯例,可合理推断:
✅ 特别强调的创新点:
- 原生整合(Native Integration)
- 无需独立子模块或外挂模型
- 图像生成与文本、语音、图像输入共享上下文和记忆机制
- 上下文驱动的一致性生成
- 支持多轮对话中,生成图像的一致性维护(如人物连续出场)
🔧 后训练阶段(Post-Training)
OpenAI 明确指出对 GPT-4o 图像生成进行了 aggressive post-training(强化后训练),目的包括:
- 提升图像结构合理性
- 准确匹配 prompt 中的多目标、多属性关系
- 提高在真实使用场景中的响应稳定性与可控性