OpenAI 又搞事了。
近日,多位开发者和设计师在社区反馈,ChatGPT 的图像生成能力似乎经历了一次静默升级。有用户上传了一张画师作品,要求模型模仿画风并将人物替换为初音未来——模型不仅精准还原了原作笔触,还把角色换得毫无违和感。这不像是老模型能干出来的活儿。
目前 OpenAI 官方尚未正式宣布新模型上线,但从社区反馈的密度和一致性来看,大概率是在灰度测试一个新版本的图像生成模型。结合此前 36氪等媒体报道的 GPT Image 1.5 相关信息,这次升级的轮廓已经相当清晰。

到底强在哪:风格迁移和元素替换是核心亮点
先说结论:这次升级最让人眼前一亮的,不是文生图的基础能力,而是风格迁移和图像编辑两个方向的飞跃。
过去用 DALL·E 3 做风格模仿,你得在 prompt 里写一大堆描述——"厚涂风格、高饱和度、笔触粗犷、类似某某画师"——然后模型给你一张似是而非的东西,画风对了三分,细节崩了七分。现在的情况完全不同。用户直接丢一张参考图进去,模型就能抓住画风的核心特征:线条粗细、色彩倾向、光影处理方式、甚至笔触的"手感",然后在这个风格框架下生成全新内容。
这意味着什么?对独立画师来说,这是一个可以快速出概念稿的工具;对游戏开发团队来说,这是一个能保持美术风格一致性的助手;对内容创作者来说,这是一个不用学 Stable Diffusion 的 LoRA 训练就能实现风格统一的方案。
人物替换同样值得说道。以前的图像编辑模型做人物替换,要么背景崩坏,要么光影不匹配,要么换完之后人物像是 P 上去的——两个图层的既视感非常强。从社区反馈来看,新模型在这方面的进步是肉眼可见的:替换后的人物能自然融入原始场景的光照环境,服装褶皱和阴影方向都能对上。
有 Linux.do 社区用户直接感叹:"有点强了,压力给到 G 家了。"这里的 G 家指的是 Google。考虑到 Google 的 Imagen 系列和 Gemini 内置的图像能力一直是这个赛道的标杆之一,这个评价的分量不轻。
冷静一下:老问题解决了多少?
兴奋归兴奋,但如果你跟进过 GPT Image 1.5 此前的公开测评,就知道 OpenAI 的生图模型一直有几个顽疾。这次升级是否真正解决了这些问题,还需要更大规模的验证。
第一个问题是"AI 油腻感"。 此前多家媒体实测发现,GPT Image 1.5 生成的图像饱和度偏高,画面有一种过度渲染的"数字感"。尤其是在写实场景下,这种油腻感会让图像一眼就被识别为 AI 生成。有经验的用户发现了一个 workaround——在 prompt 中加入"未经处理的 iPhone 照片""低饱和度颜色配置文件"等限定词,可以显著改善真实感。但这本质上是用户在帮模型打补丁,不是模型自己的能力。
第二个问题是复杂场景下的细节崩坏。 智东西此前的对比测试中,让模型从猫的第一人称视角生成厨房场景,结果猫脸严重变形,胡须只长了半边,鼻子细节完全丢失。在巨人特效的测试中,道路白线断断续续、汽车面对面行驶等低级错误也频繁出现。这类问题在 Midjourney V6 和 Google 的 Nano Banana Pro 上已经很少见了。
第三个问题是中文渲染。 对国内开发者来说这是刚需——你做一张海报、一个 Banner,上面得有中文吧?此前的测试显示,GPT Image 1.5 在前几个汉字还能保持准确,之后就开始出现笔画错误和乱码。这个问题在 Ideogram 等专注文字渲染的模型上已经有了不错的解决方案,OpenAI 在这方面确实落后了。
从这次社区反馈来看,风格迁移和人物替换的场景下,这些问题似乎被弱化了——因为这两个任务本身对"写实感"的要求没那么高,更看重风格一致性和元素融合的自然度。但如果你的需求是生成高真实感的商业摄影级图像,可能还是得观望一下。
速度和定价:开发者最关心的事
根据此前公开的信息,GPT Image 1.5 的生成速度达到了上一代模型的 4 倍。这个提升在 API 调用场景下尤其重要——如果你在做一个批量生成营销素材的工具,每张图从 30 秒降到 7-8 秒,用户体验完全是两个量级。
定价方面,GPT Image 1.5 按 token 计费,价格取决于分辨率和质量设置:
- 高质量(百万像素级):约 $133 / 千张(约 ¥937)
- 低质量:约 $9 / 千张(约 ¥63)
换算一下,高质量单张大约 ¥0.94,低质量单张约 ¥0.063。对比 Midjourney 的订阅制($10/月起,有生成次数限制),OpenAI 的按量计费模式对低频用户更友好,但对高频批量场景来说成本会快速累积。
如果你想通过 API 接入,OpenAI Hub 已经支持了最新的图像生成模型。用法很直接,和调用文本模型的体验一致——一个 Key 搞定,国内直连,不用折腾代理:
import requests
import base64
API_KEY = \"your-openai-hub-key\"
BASE_URL = \"https://api.openai-hub.com/v1\"
# 使用 Chat Completions 接口生成图像
response = requests.post(
f\"{BASE_URL}/chat/completions\",
headers={
\"Authorization\": f\"Bearer {API_KEY}\",
\"Content-Type\": \"application/json\"
},
json={
\"model\": \"gpt-4o\", # 支持最新的图像生成能力
\"messages\": [
{
\"role\": \"user\",
\"content\": \"Generate an image: A cyberpunk-style portrait of a cat wearing neon goggles, rain-soaked Tokyo street background, anime art style\"
}
]
}
)
result = response.json()
print(result)
如果你需要做风格迁移——也就是这次升级最亮眼的能力——可以通过上传参考图 + 文字指令的方式实现:
import requests
import base64
API_KEY = \"your-openai-hub-key\"
BASE_URL = \"https://api.openai-hub.com/v1\"
# 读取参考风格图片并编码为 base64
with open(\"reference_style.png\", \"rb\") as f:
image_base64 = base64.b64encode(f.read()).decode(\"utf-8\")
response = requests.post(
f\"{BASE_URL}/chat/completions\",
headers={
\"Authorization\": f\"Bearer {API_KEY}\",
\"Content-Type\": \"application/json\"
},
json={
\"model\": \"gpt-4o\",
\"messages\": [
{
\"role\": \"user\",
\"content\": [
{
\"type\": \"text\",
\"text\": \"请模仿这张图的画风,生成一张初音未来站在樱花树下的插画,保持相同的笔触风格和色彩倾向\"
},
{
\"type\": \"image_url\",
\"image_url\": {
\"url\": f\"data:image/png;base64,{image_base64}\"
}
}
]
}
]
}
)
result = response.json()
print(result)
这段代码的核心思路是:把参考图作为视觉上下文传入,同时用文字描述你想要的目标内容。模型会自动提取参考图的风格特征,并应用到新生成的图像上。
竞争格局:OpenAI 在追赶,不是在领跑
说句实话,在图像生成这个赛道上,OpenAI 目前的位置有点尴尬。
DALL·E 3 发布时确实惊艳过一阵子,但 Midjourney V6、Stable Diffusion 3、Google 的 Imagen 3 和 Nano Banana Pro 接连发力之后,OpenAI 的生图能力已经不是第一梯队了。尤其是 Google 的 Nano Banana Pro,在 Artificial Analysis 和 LMArena 两个权威榜单上长期占据文生图和图像编辑的头部位置,真实感和细节准确度都明显领先。
但 OpenAI 有一个别人很难复制的优势:产品化能力和分发渠道。
ChatGPT 的月活用户数以亿计,图像生成功能直接内嵌在对话界面里,用户不需要学任何新工具就能上手。这次升级还推出了独立的图像生成板块,提供预制模板和风格选项,进一步降低了创作门槛。相比之下,Midjourney 还在 Discord 里,Stable Diffusion 需要本地部署或者用 ComfyUI,Google 的生图能力分散在 Gemini 和 ImageFX 等多个入口——论"随手就能用",OpenAI 确实做得最好。
从 API 生态的角度看也是如此。OpenAI 的 API 格式已经成了事实标准,几乎所有 AI 应用框架(LangChain、LlamaIndex、Vercel AI SDK 等)都优先适配 OpenAI 格式。这意味着开发者接入 OpenAI 的生图 API 几乎零成本,而接入其他家的模型往往需要额外的适配工作。这也是为什么像 OpenAI Hub 这样的聚合平台有存在价值——统一格式,一个 Key 调所有模型,开发者可以在不同模型之间无缝切换,哪个效果好用哪个。
所以 OpenAI 的策略很清晰:模型能力可以不是最强的,但产品体验和生态覆盖必须是最广的。 先把用户圈进来,再慢慢迭代模型。从商业角度看,这个策略是成立的。
对开发者意味着什么
如果你正在做一个涉及图像生成的产品,这次升级有几个值得关注的点:
1. 风格一致性终于可用了。 之前要实现"给定一个参考风格,批量生成同风格图像",基本只能走 Stable Diffusion + LoRA 微调的路线,门槛不低。现在通过 API 传入参考图就能实现,虽然精度可能还比不上专门训练的 LoRA,但对于 MVP 阶段的产品来说够用了。
2. 图像编辑能力的 API 化。 人物替换、元素修改、背景更换这些操作,以前要么靠 Photoshop,要么靠 Stable Diffusion 的 Inpainting 流程。现在一个 API 调用就能搞定,对于做电商素材、社交媒体内容、游戏资产等场景的团队来说,工作流可以大幅简化。
3. 但别把鸡蛋放在一个篮子里。 前面说了,OpenAI 的生图模型在真实感上还有短板。如果你的产品对图像质量要求很高,建议同时接入多个模型,根据具体场景选择最优方案。比如写实场景用 Google 的模型,风格化场景用 OpenAI 的模型,文字渲染场景用 Ideogram。通过 OpenAI Hub 这类聚合平台,切换模型的成本几乎为零。
4. 关注版权风险。 风格模仿能力越强,版权争议就越大。如果你的产品允许用户上传参考图并模仿画风,务必在产品层面做好合规设计——至少要有明确的用户协议,声明用户对上传内容和生成结果的责任。这不是技术问题,是法律问题。
一个值得思考的趋势
这次升级还透露了一个更大的信号:图像生成正在从"独立工具"变成"基础能力层"。
两年前,你要生成一张 AI 图片,得专门打开 Midjourney 或者 Stable Diffusion WebUI。一年前,ChatGPT 和 Gemini 开始内置生图功能,但体验还比较割裂。现在,图像生成正在变成大模型的原生能力之一,和文本生成、代码生成一样自然。
这对开发者的启示是:未来的 AI 应用不应该把"文本"和"图像"当作两个独立的模块来设计,而应该把它们看作同一个模型能力的不同输出形态。用户说"帮我做一张海报",模型应该同时理解文案需求和视觉需求,一次性输出完整结果。这种多模态的原生融合,才是真正的产品方向。
OpenAI 显然在朝这个方向走。这次升级是不是正式版还不确定,但方向已经很明确了。
参考来源:
- Linux.do 社区讨论:GPT 新生图模型实测 — 用户分享风格模仿与人物替换的实测效果
- Linux.do 社区讨论:生图能力对比 — 社区用户对新模型能力的评价与竞品对比
- 36氪:实测 OpenAI 最新生图模型 — 智东西对 GPT Image 1.5 与竞品的详细对比评测