GPT-Image-2 泄露实测:文字渲染终于能用了

模型上新

OpenAI 新一代图像生成模型 GPT-Image-2 在 Chatbot Arena 悄然测试后泄露,解决了 AI 生图领域最头疼的文字渲染问题,从海报设计到手写笔记都能精准生成,甚至能写出有模有样的中文书法。

GPT-Image-2 泄露实测:文字渲染终于能用了

OpenAI 又在 Chatbot Arena 偷跑新模型了。这次是憋了 4 个月的图像生成模型 GPT-Image-2,用 maskingtape-alpha、gaffertape-alpha、packingtape-alpha 这几个代号测试,结果被眼尖的用户抓了个现行。

测试已经下线,但流出的生成样本足够让人兴奋——AI 生图最让人头疼的文字渲染问题,这次真的解决了。

GPT-Image-2 生成的多语言赛博朋克广告牌场景,各种语言的霓虹灯招牌清晰可辨

扩散模型的老毛病,这次治好了

扩散模型生成图像时,本质上是在做概率采样。它擅长处理整体视觉结构、光影关系、色彩分布这些连续性特征,但对符号系统——尤其是文字这种需要精确结构的离散符号——一直力不从心。

具体表现就是:让 DALL·E 3 或 Midjourney 生成一张咖啡店海报,店名大概率是 "COFFEF" 或者 "CAFFE" 这种看着像但又不对的东西;画个路牌,上面的字母扭曲得像喝醉了。这不是模型不够大或训练不够久的问题,而是架构层面对符号结构缺乏显式建模。

GPT-Image-2 的突破在于,它能生成清晰、可辨识、符合语法规则的文字。不是那种「看起来有点像文字的纹理」,而是真正能读、能用的文本。

从流出的样本看:

  • 多语言广告牌:赛博朋克风格的街景,英文、日文、中文霓虹灯招牌混杂,每个字都清晰可辨,字体还有不同风格
  • 网页截图:生成的浏览器界面,地址栏、按钮文字、页面标题都准确无误
  • 解剖图标注:医学解剖图上的各部位名称标注,专业术语拼写正确,排版工整
  • 手写笔记:这个最惊艳——不是印刷体叠加在图片上,而是真的像用笔在纸上写的,笔画粗细、墨迹晕染、纸张纹理都有

中文书法也能写,但还差点意思

有用户测试让 GPT-Image-2 生成李白《静夜思》的草书作品。结果出来了,但不算完美:笔画有连贯性,整体有书法的韵味,但细看会发现草书「含量」不高,更像是行楷;落款印章的印文有点抽象,甚至多了一句诗。

但这已经很不容易了。中文书法不是简单的字形拼接,它涉及笔画顺序、力度变化、结构呼应、章法布局。一个 AI 模型能理解「永字八法」,知道撇捺之间的呼应关系,这需要对中文字形结构有极深的理解。

相比之下,英文字母是拉丁字母的排列组合,结构相对简单;中文汉字是象形文字演化而来,每个字都是独立的视觉系统。GPT-Image-2 能做到这个程度,说明 OpenAI 在训练数据和模型架构上都下了功夫。

GPT-Image-2 生成的手写笔记样本,展示自然的笔迹和纸张质感

人像真实感也上了一个台阶

除了文字渲染,GPT-Image-2 在人像生成上也有明显进步。有个简单的测试方法:让模型生成 Sam Altman 的自拍。

如果用的是 GPT-Image-1.5(也就是现在 ChatGPT 内置的版本),生成的人像「大概像」——五官位置对,但皮肤质感、细节都很粗糙,像是低分辨率照片放大后的效果。

换成 GPT-Image-2,眼尾的皱纹、胡须的走向、皮肤的毛孔、发丝的光影都精准还原。这不是简单的分辨率提升,而是模型对人脸结构、光照模型、材质属性的理解更深了。

这对需要生成逼真人像的场景——比如虚拟试衣、游戏角色设计、广告素材制作——意义重大。以前这些场景要么用真人拍摄,要么用 3D 建模渲染,成本都不低。现在用 AI 生成,质量已经接近可商用的水平。

色彩问题也顺便解决了

DALL·E 系列一直有个小毛病:生成的图像普遍偏暖,像加了层「黄色滤镜」。这在生成某些场景时问题不大,但如果要生成产品图、技术文档配图这种对色彩准确性有要求的内容,就很麻烦。

GPT-Image-1 有所改善但没彻底解决。GPT-Image-2 的用户反馈显示,色彩终于正常了——该冷的冷,该暖的暖,不再有统一的色偏倾向。

这个改进看起来不起眼,但对专业用户来说很重要。设计师用 AI 生成素材时,如果每次都要手动调色才能用,效率就大打折扣。

跟 Nano Banana Pro 比怎么样?

去年谷歌发布的 Nano Banana Pro 一度被认为是图像生成领域的新标杆,尤其在「世界知识理解」上——它能生成符合物理常识、逻辑自洽的复杂场景,比如一个机械装置的内部结构,各个零件的连接关系都是对的。

从目前流出的信息看,GPT-Image-2 在这方面可能不输甚至超过 Nano Banana Pro。它不仅能生成视觉上逼真的图像,还能保证图像内容符合现实逻辑。

举个例子:生成一张「19 世纪蒸汽朋克风格的火车站」,GPT-Image-2 不仅能画出蒸汽机车、齿轮、管道这些视觉元素,还能保证这些元素的组合方式符合机械原理——齿轮的咬合、管道的走向、蒸汽的流动方向都是对的。

这种「世界知识理解」能力,本质上是模型在训练时不仅学到了视觉特征,还学到了物理世界的因果关系、空间关系、功能关系。这对生成技术文档、教学材料、工程图纸这类需要准确性的内容至关重要。

这可能是 GPT-5o 的前奏

坊间有传言说,GPT-Image-2 可能基于全新的预训练底座,甚至就是传说中的 GPT-5o 的一部分。

如果这个猜测成立,那 GPT-Image-2 展现出的能力跨越就不是简单的模型调优,而是架构层面的升级。从 GPT-4o 到 GPT-5o,可能不是参数量的线性增长,而是多模态融合方式、训练范式、推理机制的根本性变化。

文字渲染能力的突破,可能意味着 OpenAI 找到了更好的方式来处理离散符号和连续信号的混合建模问题。这不仅对图像生成有用,对视频生成、3D 建模、甚至代码生成都有启发。

对开发者意味着什么?

GPT-Image-2 如果正式发布,最直接的影响是:很多以前需要人工处理的图像生成任务,现在可以完全自动化了。

海报和营销素材生成:以前用 AI 生成海报,文字部分要么手动添加,要么用 Photoshop 后期处理。现在可以直接在 prompt 里指定文字内容,模型一次生成到位。

技术文档配图:生成流程图、架构图、示意图时,图中的标注文字现在能保证准确,不用担心出现乱码或拼写错误。

多语言内容本地化:同一张图,换个语言的文字,模型能直接生成对应版本,不需要设计师逐个调整。

原型设计和 Mockup:产品经理画原型时,可以直接用 AI 生成带真实文字的界面截图,而不是用 Lorem Ipsum 占位符。

如果 OpenAI 提供 API 访问(大概率会),开发者可以把 GPT-Image-2 集成到自己的工具链里。比如:

import openai

# OpenAI Hub 支持 GPT-Image-2 的 API 调用
client = openai.OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.images.generate(
    model="gpt-image-2",
    prompt="一张咖啡店海报,店名是'Morning Brew',副标题'Fresh Coffee Daily',复古风格,暖色调",
    size="1024x1024",
    quality="hd",
    n=1
)

image_url = response.data[0].url
print(f"生成的图像: {image_url}")

这段代码展示了如何通过 OpenAI Hub 调用 GPT-Image-2。关键参数:

  • model: 指定使用 gpt-image-2
  • prompt: 详细描述图像内容,包括需要渲染的文字
  • quality: 设置为 hd 获得更高质量的输出

OpenAI Hub 的好处是兼容 OpenAI 的 API 格式,国内直连,不用担心网络问题。而且一个 Key 可以调用多个模型,如果需要对比 GPT-Image-2 和其他图像模型(比如 DALL·E 3、Midjourney、Stable Diffusion)的效果,切换起来很方便。

还有哪些问题没解决?

虽然 GPT-Image-2 在文字渲染上有了质的飞跃,但不是所有问题都解决了:

中文复杂场景还不够稳定:英文文字渲染已经很可靠,但中文——尤其是书法、篆刻、古籍排版这种复杂场景——还有提升空间。

长文本渲染有限制:目前看到的样本大多是短文本(几个单词到一两句话)。如果要生成一整页报纸或者一本书的封面,长文本的排版和一致性还需要验证。

风格化文字的控制:虽然能生成手写体、印刷体、霓虹灯字体,但对字体风格的精细控制(比如指定用某个特定字体)可能还做不到。

生成速度和成本:文字渲染能力的提升,通常意味着模型更复杂、推理更慢。GPT-Image-2 的生成速度和 API 调用成本还是未知数。

这是个转折点

AI 图像生成从 2022 年的 DALL·E 2、Midjourney、Stable Diffusion 爆发以来,一直在「看起来很美」和「实际能用」之间徘徊。

文字渲染问题是最大的拦路虎。设计师用 AI 生成素材时,往往要经过「AI 生成 → 导出 → Photoshop 修改文字 → 再调整」这个流程。这个流程一旦存在,AI 就只是个辅助工具,而不是生产力工具。

GPT-Image-2 如果真的解决了文字渲染问题,意味着 AI 图像生成终于可以从「灵感参考」进化到「直接交付」。这对整个内容创作行业的影响,可能比我们想象的更大。

当然,现在下结论还早。GPT-Image-2 还在测试阶段,正式发布时的能力、定价、使用限制都是未知数。但从泄露的样本看,OpenAI 这次憋的大招,确实值得期待。


参考来源