ChatGPT Images 2.0:能联网、会写字的图像生成

产品更新

OpenAI 发布 ChatGPT Images 2.0,底层模型升级为 GPT Image 2,新增网页检索与思考能力,文本渲染准确度大幅提升,中文支持也被官方重点提及。

OpenAI 在 4 月 21 日正式推出 ChatGPT Images 2.0,底层模型从 gpt-image-1.5 升级到 GPT Image 2。这次更新的核心卖点有两个:图像生成器现在能联网检索信息,以及文本渲染能力有了质的飞跃。

简单说,以前你让 ChatGPT 画一张带文字的海报,它大概率会把字写歪、写错、多一笔少一划。现在 2.0 版本在文字渲染上的表现,用 TechCrunch 的话说是「surprisingly good」——这个评价从一向挑剔的科技媒体嘴里说出来,分量不轻。

联网检索:图像生成的范式变化

这是 Images 2.0 最值得关注的能力。

过去所有主流图像生成模型——Midjourney、Stable Diffusion、DALL·E——本质上都是「闭卷考试」。模型只能基于训练数据里见过的东西来生成图像,你让它画 2026 年 4 月的新闻事件,它只能瞎编。

Images 2.0 打破了这个限制。当你选择带思考能力(thinking)的模型时,ChatGPT 的图像生成器可以先去网上搜索相关信息,再基于检索结果来创作图像。

举个实际场景:你让它「画一张今天 NBA 季后赛比分的信息图」,它会先检索实时比分数据,然后生成一张数据准确的图表。这在以前是不可能的——你只能自己查好数据,再一字一句喂给模型。

这意味着图像生成从「纯创意工具」向「信息可视化工具」迈了一大步。对开发者来说,这打开了一类全新的应用场景:实时数据的可视化生成、基于最新信息的营销素材制作、动态内容的自动化生产。

不过需要注意,联网检索能力目前仅限于 ChatGPT Plus、Pro、Business 和 Enterprise 订阅用户,且需要手动选择带 thinking 的模型。免费用户暂时用不上。

ChatGPT Images 2.0 生成的带有实时信息的图像示例,展示联网检索后生成的信息图

文本渲染:AI 绘图的老大难问题终于有解了

AI 生成图像里的文字一直是个「照妖镜」——一眼就能看出是不是 AI 画的。字母多一笔少一划、中文缺胳膊少腿,这些问题从 DALL·E 2 时代就存在,到 Midjourney v6 也没完全解决。

GPT Image 2 在这方面的进步是肉眼可见的。从社区反馈来看,英文文本的渲染准确率已经相当高,生成带有完整句子的海报、Logo、UI 界面截图都不再是问题。

中文呢?这是个更有意思的话题。

OpenAI 在官方博客里专门强调了中文支持,这在以往的产品更新中并不常见。官方甚至上线了中文版的介绍页面,措辞是「正在努力修复中」。社区用户的实测结论是:中文渲染比之前好了不少,但还没到完美的程度。

开发者社区里已经有人找到了一个巧妙的 workaround:先用 GPT Image 2 生成图像,再用 nanobanana 2 模型做后处理,专门修复中文文字。据 Linux.do 论坛用户反馈,这套组合拳能大幅提升中文文字的准确性,同时还能把分辨率从 1K 拉到 4K。当然,这个方案也有副作用——可能导致整体色调偏粉,且修正率达不到 100%。

这说明什么?中文文本渲染仍然是所有图像生成模型的硬骨头,但 GPT Image 2 至少把基线拉高了一截。

指令遵循与细节保持

除了联网和文字这两个大亮点,Images 2.0 在基础能力上也有明显提升:

  • 指令遵循更精准:复杂的多条件 prompt 不再容易「丢指令」。比如你说「一只橘猫坐在蓝色沙发上,背景是落地窗,窗外下雨」,以前模型可能会漏掉下雨这个细节,现在的遵循度高了很多。
  • 细节一致性:在多轮编辑中,面部特征、服装细节等关键元素能保持一致。这对需要生成系列图片的场景(比如漫画、产品展示)非常关键。
  • 单 prompt 多图生成:一次对话就能生成多张风格一致的图像,不用反复调整。
  • 生成速度提升约 4 倍:迭代效率大幅提高,这对需要反复调整的创意工作流来说是实打实的体验改善。

API 层面:gpt-image-2 模型上线

对开发者来说,更重要的是 API 的更新。新模型在 API 中以 gpt-image-2 的名称提供,继承了 ChatGPT Images 2.0 的所有能力改进。

以下是通过 OpenAI Hub 调用 gpt-image-2 的示例。OpenAI Hub 兼容 OpenAI 格式,国内可直连,一个 Key 就能调用包括 GPT Image 2 在内的主流模型:

import base64
from openai import OpenAI

client = OpenAI(
    api_key="你的 OpenAI Hub API Key",
    base_url="https://api.openai-hub.com/v1"
)

# 基础图像生成
result = client.images.generate(
    model="gpt-image-2",
    prompt="一张极简风格的科技公司 Logo,中间是字母 K,深蓝色渐变背景,白色几何线条",
    size="1024x1024",
    quality="high"
)

# 获取生成的图像(base64 编码)
image_base64 = result.data[0].b64_json
with open("output.png", "wb") as f:
    f.write(base64.b64decode(image_base64))

如果你需要对已有图像进行编辑,API 同样支持:

# 图像编辑
result = client.images.edit(
    model="gpt-image-2",
    image=open("input.png", "rb"),
    prompt="把背景改成日落时分的海边,保持人物不变",
    size="1024x1024"
)

image_base64 = result.data[0].b64_json
with open("edited.png", "wb") as f:
    f.write(base64.b64decode(image_base64))

值得注意的是,目前 API 生成的图像最大分辨率为 1024×1024。如果你的业务场景需要更高分辨率,需要在后处理环节自行做超分。

跟竞品比,Images 2.0 处在什么位置?

坦率地说,图像生成赛道现在卷得厉害。我们把几个主要玩家拉出来横向对比一下。

在文本渲染方面,GPT Image 2 目前处于第一梯队。Midjourney v6.1 的文字能力也不错,但不支持联网检索。Google 的 Imagen 3 在文字准确度上表现尚可,但整体创意表现力不如前两者。至于开源阵营的 Flux 和 Stable Diffusion 3.5,文字渲染仍然是明显短板。

联网检索能力是 Images 2.0 目前独有的差异化优势。这不是一个简单的功能叠加——它改变了图像生成的工作流。以前你需要「查资料 → 整理信息 → 写 prompt → 生成图像」,现在可以直接「描述需求 → 生成图像」,中间的信息检索环节被模型接管了。

但 Images 2.0 也有明显的短板:

  1. 分辨率上限 1K,在 Midjourney 默认就能输出 2K 的今天,这个参数不太好看。
  2. 中文文本渲染虽然进步了,但离「可靠」还有距离。如果你的业务场景强依赖中文文字的准确性,建议做好人工校验的预案。
  3. 联网检索仅限高级订阅用户,API 层面是否支持、何时支持,官方还没有明确说法。

对开发者意味着什么

如果你正在做跟图像生成相关的产品,Images 2.0 有几个点值得关注:

第一,文本渲染能力的提升让一批之前不可行的场景变得可行了。自动生成带文字的社交媒体配图、电商商品主图、活动海报——这些场景以前因为文字不准确而需要大量人工修正,现在至少英文场景的自动化程度可以大幅提高。

第二,联网检索能力如果后续开放到 API,将催生一类新的应用:基于实时信息的自动化视觉内容生产。想象一下,一个自动化流程每天早上抓取行业数据,生成一张信息图发到社群——这个链路现在技术上已经可以闭环了。

第三,gpt-image-2 在 API 中的定价和速率限制是需要关注的实际问题。图像生成 API 的成本一直不低,如果你的应用需要大量调用,成本模型要提前算清楚。

一个有趣的细节

在 OpenAI 的官方博客中,有一个容易被忽略的细节:他们用了一张「接住」梗图作为示例。这在 OpenAI 一贯严肃的产品发布中相当少见。社区用户也注意到了这一点,在 Linux.do 论坛上引发了讨论——OpenAI 似乎在有意拉近与中文用户社区的距离。

结合官方博客专门强调中文支持、上线中文介绍页面这些动作来看,OpenAI 对中文市场的重视程度在明显提升。这对国内开发者来说是个积极信号——至少意味着中文相关的能力会持续得到优化。

小结

ChatGPT Images 2.0 不是一次小修小补。联网检索让图像生成从「闭卷」变成了「开卷」,文本渲染的进步让更多实际业务场景变得可行。中文支持虽然还不完美,但方向是对的。

对于已经在用 GPT 图像 API 的开发者,建议尽早测试 gpt-image-2,尤其是文本渲染和指令遵循方面的改进,可能会直接影响你现有产品的体验。对于还在观望的开发者,联网检索能力值得重点关注——这可能是图像生成领域下一个竞争焦点。


参考来源: