OpenAI 在 4 月 21 日正式推出 ChatGPT Images 2.0,底层模型从 gpt-image-1.5 升级到 GPT Image 2。这次更新的核心卖点有两个:图像生成器现在能联网检索信息,以及文本渲染能力有了质的飞跃。
简单说,以前你让 ChatGPT 画一张带文字的海报,它大概率会把字写歪、写错、多一笔少一划。现在 2.0 版本在文字渲染上的表现,用 TechCrunch 的话说是「surprisingly good」——这个评价从一向挑剔的科技媒体嘴里说出来,分量不轻。
联网检索:图像生成的范式变化
这是 Images 2.0 最值得关注的能力。
过去所有主流图像生成模型——Midjourney、Stable Diffusion、DALL·E——本质上都是「闭卷考试」。模型只能基于训练数据里见过的东西来生成图像,你让它画 2026 年 4 月的新闻事件,它只能瞎编。
Images 2.0 打破了这个限制。当你选择带思考能力(thinking)的模型时,ChatGPT 的图像生成器可以先去网上搜索相关信息,再基于检索结果来创作图像。
举个实际场景:你让它「画一张今天 NBA 季后赛比分的信息图」,它会先检索实时比分数据,然后生成一张数据准确的图表。这在以前是不可能的——你只能自己查好数据,再一字一句喂给模型。
这意味着图像生成从「纯创意工具」向「信息可视化工具」迈了一大步。对开发者来说,这打开了一类全新的应用场景:实时数据的可视化生成、基于最新信息的营销素材制作、动态内容的自动化生产。
不过需要注意,联网检索能力目前仅限于 ChatGPT Plus、Pro、Business 和 Enterprise 订阅用户,且需要手动选择带 thinking 的模型。免费用户暂时用不上。

文本渲染:AI 绘图的老大难问题终于有解了
AI 生成图像里的文字一直是个「照妖镜」——一眼就能看出是不是 AI 画的。字母多一笔少一划、中文缺胳膊少腿,这些问题从 DALL·E 2 时代就存在,到 Midjourney v6 也没完全解决。
GPT Image 2 在这方面的进步是肉眼可见的。从社区反馈来看,英文文本的渲染准确率已经相当高,生成带有完整句子的海报、Logo、UI 界面截图都不再是问题。
中文呢?这是个更有意思的话题。
OpenAI 在官方博客里专门强调了中文支持,这在以往的产品更新中并不常见。官方甚至上线了中文版的介绍页面,措辞是「正在努力修复中」。社区用户的实测结论是:中文渲染比之前好了不少,但还没到完美的程度。
开发者社区里已经有人找到了一个巧妙的 workaround:先用 GPT Image 2 生成图像,再用 nanobanana 2 模型做后处理,专门修复中文文字。据 Linux.do 论坛用户反馈,这套组合拳能大幅提升中文文字的准确性,同时还能把分辨率从 1K 拉到 4K。当然,这个方案也有副作用——可能导致整体色调偏粉,且修正率达不到 100%。
这说明什么?中文文本渲染仍然是所有图像生成模型的硬骨头,但 GPT Image 2 至少把基线拉高了一截。
指令遵循与细节保持
除了联网和文字这两个大亮点,Images 2.0 在基础能力上也有明显提升:
- 指令遵循更精准:复杂的多条件 prompt 不再容易「丢指令」。比如你说「一只橘猫坐在蓝色沙发上,背景是落地窗,窗外下雨」,以前模型可能会漏掉下雨这个细节,现在的遵循度高了很多。
- 细节一致性:在多轮编辑中,面部特征、服装细节等关键元素能保持一致。这对需要生成系列图片的场景(比如漫画、产品展示)非常关键。
- 单 prompt 多图生成:一次对话就能生成多张风格一致的图像,不用反复调整。
- 生成速度提升约 4 倍:迭代效率大幅提高,这对需要反复调整的创意工作流来说是实打实的体验改善。
API 层面:gpt-image-2 模型上线
对开发者来说,更重要的是 API 的更新。新模型在 API 中以 gpt-image-2 的名称提供,继承了 ChatGPT Images 2.0 的所有能力改进。
以下是通过 OpenAI Hub 调用 gpt-image-2 的示例。OpenAI Hub 兼容 OpenAI 格式,国内可直连,一个 Key 就能调用包括 GPT Image 2 在内的主流模型:
import base64
from openai import OpenAI
client = OpenAI(
api_key="你的 OpenAI Hub API Key",
base_url="https://api.openai-hub.com/v1"
)
# 基础图像生成
result = client.images.generate(
model="gpt-image-2",
prompt="一张极简风格的科技公司 Logo,中间是字母 K,深蓝色渐变背景,白色几何线条",
size="1024x1024",
quality="high"
)
# 获取生成的图像(base64 编码)
image_base64 = result.data[0].b64_json
with open("output.png", "wb") as f:
f.write(base64.b64decode(image_base64))
如果你需要对已有图像进行编辑,API 同样支持:
# 图像编辑
result = client.images.edit(
model="gpt-image-2",
image=open("input.png", "rb"),
prompt="把背景改成日落时分的海边,保持人物不变",
size="1024x1024"
)
image_base64 = result.data[0].b64_json
with open("edited.png", "wb") as f:
f.write(base64.b64decode(image_base64))
值得注意的是,目前 API 生成的图像最大分辨率为 1024×1024。如果你的业务场景需要更高分辨率,需要在后处理环节自行做超分。
跟竞品比,Images 2.0 处在什么位置?
坦率地说,图像生成赛道现在卷得厉害。我们把几个主要玩家拉出来横向对比一下。
在文本渲染方面,GPT Image 2 目前处于第一梯队。Midjourney v6.1 的文字能力也不错,但不支持联网检索。Google 的 Imagen 3 在文字准确度上表现尚可,但整体创意表现力不如前两者。至于开源阵营的 Flux 和 Stable Diffusion 3.5,文字渲染仍然是明显短板。
联网检索能力是 Images 2.0 目前独有的差异化优势。这不是一个简单的功能叠加——它改变了图像生成的工作流。以前你需要「查资料 → 整理信息 → 写 prompt → 生成图像」,现在可以直接「描述需求 → 生成图像」,中间的信息检索环节被模型接管了。
但 Images 2.0 也有明显的短板:
- 分辨率上限 1K,在 Midjourney 默认就能输出 2K 的今天,这个参数不太好看。
- 中文文本渲染虽然进步了,但离「可靠」还有距离。如果你的业务场景强依赖中文文字的准确性,建议做好人工校验的预案。
- 联网检索仅限高级订阅用户,API 层面是否支持、何时支持,官方还没有明确说法。
对开发者意味着什么
如果你正在做跟图像生成相关的产品,Images 2.0 有几个点值得关注:
第一,文本渲染能力的提升让一批之前不可行的场景变得可行了。自动生成带文字的社交媒体配图、电商商品主图、活动海报——这些场景以前因为文字不准确而需要大量人工修正,现在至少英文场景的自动化程度可以大幅提高。
第二,联网检索能力如果后续开放到 API,将催生一类新的应用:基于实时信息的自动化视觉内容生产。想象一下,一个自动化流程每天早上抓取行业数据,生成一张信息图发到社群——这个链路现在技术上已经可以闭环了。
第三,gpt-image-2 在 API 中的定价和速率限制是需要关注的实际问题。图像生成 API 的成本一直不低,如果你的应用需要大量调用,成本模型要提前算清楚。
一个有趣的细节
在 OpenAI 的官方博客中,有一个容易被忽略的细节:他们用了一张「接住」梗图作为示例。这在 OpenAI 一贯严肃的产品发布中相当少见。社区用户也注意到了这一点,在 Linux.do 论坛上引发了讨论——OpenAI 似乎在有意拉近与中文用户社区的距离。
结合官方博客专门强调中文支持、上线中文介绍页面这些动作来看,OpenAI 对中文市场的重视程度在明显提升。这对国内开发者来说是个积极信号——至少意味着中文相关的能力会持续得到优化。
小结
ChatGPT Images 2.0 不是一次小修小补。联网检索让图像生成从「闭卷」变成了「开卷」,文本渲染的进步让更多实际业务场景变得可行。中文支持虽然还不完美,但方向是对的。
对于已经在用 GPT 图像 API 的开发者,建议尽早测试 gpt-image-2,尤其是文本渲染和指令遵循方面的改进,可能会直接影响你现有产品的体验。对于还在观望的开发者,联网检索能力值得重点关注——这可能是图像生成领域下一个竞争焦点。
参考来源:
- 揭秘 OpenAI 全新图像生成架构:GPT Image 2 核心能力演进与 API 接入 — 掘金社区对 GPT Image 2 架构和 API 的技术解析
- OpenAI 图像生成 API 正式上线,集成最新 gpt-image-1 模型 — 知乎专栏对 OpenAI 图像 API 演进的梳理
- 发现了 gpt-image-2 配合 nanobanana2 的真谛 — Linux.do 社区用户实测 GPT Image 2 中文修复方案
- OpenAI 也知道接住你这个梗 — Linux.do 社区对 Images 2.0 官方博客的讨论