OpenAI 新生图模型灰度上线：风格迁移与人物替换能力实测解析

OpenAI 疑似灰度测试新一代图像生成模型，用户发现其风格模仿与人物替换能力大幅跃升，社区实测效果惊艳，但真实感和细节稳定性仍有短板。

OpenAI 又搞事了。

近日，多位开发者和设计师在社区反馈，ChatGPT 的图像生成能力似乎经历了一次静默升级。有用户上传了一张画师作品，要求模型模仿画风并将人物替换为初音未来——模型不仅精准还原了原作笔触，还把角色换得毫无违和感。这不像是老模型能干出来的活儿。

目前 OpenAI 官方尚未正式宣布新模型上线，但从社区反馈的密度和一致性来看，大概率是在灰度测试一个新版本的图像生成模型。结合此前 36氪等媒体报道的 GPT Image 1.5 相关信息，这次升级的轮廓已经相当清晰。

用户实测截图——上传画师原图后，模型模仿画风并将人物替换为初音未来的对比效果

到底强在哪：风格迁移和元素替换是核心亮点

先说结论：这次升级最让人眼前一亮的，不是文生图的基础能力，而是风格迁移和图像编辑两个方向的飞跃。

过去用 DALL·E 3 做风格模仿，你得在 prompt 里写一大堆描述——"厚涂风格、高饱和度、笔触粗犷、类似某某画师"——然后模型给你一张似是而非的东西，画风对了三分，细节崩了七分。现在的情况完全不同。用户直接丢一张参考图进去，模型就能抓住画风的核心特征：线条粗细、色彩倾向、光影处理方式、甚至笔触的"手感"，然后在这个风格框架下生成全新内容。

这意味着什么？对独立画师来说，这是一个可以快速出概念稿的工具；对游戏开发团队来说，这是一个能保持美术风格一致性的助手；对内容创作者来说，这是一个不用学 Stable Diffusion 的 LoRA 训练就能实现风格统一的方案。

人物替换同样值得说道。以前的图像编辑模型做人物替换，要么背景崩坏，要么光影不匹配，要么换完之后人物像是 P 上去的——两个图层的既视感非常强。从社区反馈来看，新模型在这方面的进步是肉眼可见的：替换后的人物能自然融入原始场景的光照环境，服装褶皱和阴影方向都能对上。

有 Linux.do 社区用户直接感叹："有点强了，压力给到 G 家了。"这里的 G 家指的是 Google。考虑到 Google 的 Imagen 系列和 Gemini 内置的图像能力一直是这个赛道的标杆之一，这个评价的分量不轻。

冷静一下：老问题解决了多少？

兴奋归兴奋，但如果你跟进过 GPT Image 1.5 此前的公开测评，就知道 OpenAI 的生图模型一直有几个顽疾。这次升级是否真正解决了这些问题，还需要更大规模的验证。

第一个问题是"AI 油腻感"。 此前多家媒体实测发现，GPT Image 1.5 生成的图像饱和度偏高，画面有一种过度渲染的"数字感"。尤其是在写实场景下，这种油腻感会让图像一眼就被识别为 AI 生成。有经验的用户发现了一个 workaround——在 prompt 中加入"未经处理的 iPhone 照片""低饱和度颜色配置文件"等限定词，可以显著改善真实感。但这本质上是用户在帮模型打补丁，不是模型自己的能力。

第二个问题是复杂场景下的细节崩坏。 智东西此前的对比测试中，让模型从猫的第一人称视角生成厨房场景，结果猫脸严重变形，胡须只长了半边，鼻子细节完全丢失。在巨人特效的测试中，道路白线断断续续、汽车面对面行驶等低级错误也频繁出现。这类问题在 Midjourney V6 和 Google 的 Nano Banana Pro 上已经很少见了。

第三个问题是中文渲染。 对国内开发者来说这是刚需——你做一张海报、一个 Banner，上面得有中文吧？此前的测试显示，GPT Image 1.5 在前几个汉字还能保持准确，之后就开始出现笔画错误和乱码。这个问题在 Ideogram 等专注文字渲染的模型上已经有了不错的解决方案，OpenAI 在这方面确实落后了。

从这次社区反馈来看，风格迁移和人物替换的场景下，这些问题似乎被弱化了——因为这两个任务本身对"写实感"的要求没那么高，更看重风格一致性和元素融合的自然度。但如果你的需求是生成高真实感的商业摄影级图像，可能还是得观望一下。

速度和定价：开发者最关心的事

根据此前公开的信息，GPT Image 1.5 的生成速度达到了上一代模型的 4 倍。这个提升在 API 调用场景下尤其重要——如果你在做一个批量生成营销素材的工具，每张图从 30 秒降到 7-8 秒，用户体验完全是两个量级。

定价方面，GPT Image 1.5 按 token 计费，价格取决于分辨率和质量设置：

高质量（百万像素级）：约 $133 / 千张（约 ¥937）
低质量：约 $9 / 千张（约 ¥63）

换算一下，高质量单张大约 ¥0.94，低质量单张约 ¥0.063。对比 Midjourney 的订阅制（$10/月起，有生成次数限制），OpenAI 的按量计费模式对低频用户更友好，但对高频批量场景来说成本会快速累积。

如果你想通过 API 接入，OpenAI Hub 已经支持了最新的图像生成模型。用法很直接，和调用文本模型的体验一致——一个 Key 搞定，国内直连，不用折腾代理：

import requests
import base64

API_KEY = \"your-openai-hub-key\"
BASE_URL = \"https://api.openai-hub.com/v1\"

# 使用 Chat Completions 接口生成图像
response = requests.post(
    f\"{BASE_URL}/chat/completions\",
    headers={
        \"Authorization\": f\"Bearer {API_KEY}\",
        \"Content-Type\": \"application/json\"
    },
    json={
        \"model\": \"gpt-4o\",  # 支持最新的图像生成能力
        \"messages\": [
            {
                \"role\": \"user\",
                \"content\": \"Generate an image: A cyberpunk-style portrait of a cat wearing neon goggles, rain-soaked Tokyo street background, anime art style\"
            }
        ]
    }
)

result = response.json()
print(result)

如果你需要做风格迁移——也就是这次升级最亮眼的能力——可以通过上传参考图 + 文字指令的方式实现：

import requests
import base64

API_KEY = \"your-openai-hub-key\"
BASE_URL = \"https://api.openai-hub.com/v1\"

# 读取参考风格图片并编码为 base64
with open(\"reference_style.png\", \"rb\") as f:
    image_base64 = base64.b64encode(f.read()).decode(\"utf-8\")

response = requests.post(
    f\"{BASE_URL}/chat/completions\",
    headers={
        \"Authorization\": f\"Bearer {API_KEY}\",
        \"Content-Type\": \"application/json\"
    },
    json={
        \"model\": \"gpt-4o\",
        \"messages\": [
            {
                \"role\": \"user\",
                \"content\": [
                    {
                        \"type\": \"text\",
                        \"text\": \"请模仿这张图的画风，生成一张初音未来站在樱花树下的插画，保持相同的笔触风格和色彩倾向\"
                    },
                    {
                        \"type\": \"image_url\",
                        \"image_url\": {
                            \"url\": f\"data:image/png;base64,{image_base64}\"
                        }
                    }
                ]
            }
        ]
    }
)

result = response.json()
print(result)

这段代码的核心思路是：把参考图作为视觉上下文传入，同时用文字描述你想要的目标内容。模型会自动提取参考图的风格特征，并应用到新生成的图像上。

竞争格局：OpenAI 在追赶，不是在领跑

说句实话，在图像生成这个赛道上，OpenAI 目前的位置有点尴尬。

DALL·E 3 发布时确实惊艳过一阵子，但 Midjourney V6、Stable Diffusion 3、Google 的 Imagen 3 和 Nano Banana Pro 接连发力之后，OpenAI 的生图能力已经不是第一梯队了。尤其是 Google 的 Nano Banana Pro，在 Artificial Analysis 和 LMArena 两个权威榜单上长期占据文生图和图像编辑的头部位置，真实感和细节准确度都明显领先。

但 OpenAI 有一个别人很难复制的优势：产品化能力和分发渠道。

ChatGPT 的月活用户数以亿计，图像生成功能直接内嵌在对话界面里，用户不需要学任何新工具就能上手。这次升级还推出了独立的图像生成板块，提供预制模板和风格选项，进一步降低了创作门槛。相比之下，Midjourney 还在 Discord 里，Stable Diffusion 需要本地部署或者用 ComfyUI，Google 的生图能力分散在 Gemini 和 ImageFX 等多个入口——论"随手就能用"，OpenAI 确实做得最好。

从 API 生态的角度看也是如此。OpenAI 的 API 格式已经成了事实标准，几乎所有 AI 应用框架（LangChain、LlamaIndex、Vercel AI SDK 等）都优先适配 OpenAI 格式。这意味着开发者接入 OpenAI 的生图 API 几乎零成本，而接入其他家的模型往往需要额外的适配工作。这也是为什么像 OpenAI Hub 这样的聚合平台有存在价值——统一格式，一个 Key 调所有模型，开发者可以在不同模型之间无缝切换，哪个效果好用哪个。

所以 OpenAI 的策略很清晰：模型能力可以不是最强的，但产品体验和生态覆盖必须是最广的。 先把用户圈进来，再慢慢迭代模型。从商业角度看，这个策略是成立的。

对开发者意味着什么

如果你正在做一个涉及图像生成的产品，这次升级有几个值得关注的点：

1. 风格一致性终于可用了。 之前要实现"给定一个参考风格，批量生成同风格图像"，基本只能走 Stable Diffusion + LoRA 微调的路线，门槛不低。现在通过 API 传入参考图就能实现，虽然精度可能还比不上专门训练的 LoRA，但对于 MVP 阶段的产品来说够用了。

2. 图像编辑能力的 API 化。 人物替换、元素修改、背景更换这些操作，以前要么靠 Photoshop，要么靠 Stable Diffusion 的 Inpainting 流程。现在一个 API 调用就能搞定，对于做电商素材、社交媒体内容、游戏资产等场景的团队来说，工作流可以大幅简化。

3. 但别把鸡蛋放在一个篮子里。 前面说了，OpenAI 的生图模型在真实感上还有短板。如果你的产品对图像质量要求很高，建议同时接入多个模型，根据具体场景选择最优方案。比如写实场景用 Google 的模型，风格化场景用 OpenAI 的模型，文字渲染场景用 Ideogram。通过 OpenAI Hub 这类聚合平台，切换模型的成本几乎为零。

4. 关注版权风险。 风格模仿能力越强，版权争议就越大。如果你的产品允许用户上传参考图并模仿画风，务必在产品层面做好合规设计——至少要有明确的用户协议，声明用户对上传内容和生成结果的责任。这不是技术问题，是法律问题。

一个值得思考的趋势

这次升级还透露了一个更大的信号：图像生成正在从"独立工具"变成"基础能力层"。

两年前，你要生成一张 AI 图片，得专门打开 Midjourney 或者 Stable Diffusion WebUI。一年前，ChatGPT 和 Gemini 开始内置生图功能，但体验还比较割裂。现在，图像生成正在变成大模型的原生能力之一，和文本生成、代码生成一样自然。

这对开发者的启示是：未来的 AI 应用不应该把"文本"和"图像"当作两个独立的模块来设计，而应该把它们看作同一个模型能力的不同输出形态。用户说"帮我做一张海报"，模型应该同时理解文案需求和视觉需求，一次性输出完整结果。这种多模态的原生融合，才是真正的产品方向。

OpenAI 显然在朝这个方向走。这次升级是不是正式版还不确定，但方向已经很明确了。

参考来源：

Linux.do 社区讨论：GPT 新生图模型实测 — 用户分享风格模仿与人物替换的实测效果
Linux.do 社区讨论：生图能力对比 — 社区用户对新模型能力的评价与竞品对比
36氪：实测 OpenAI 最新生图模型 — 智东西对 GPT Image 1.5 与竞品的详细对比评测

OpenAI 悄悄上新生图模型，风格迁移炸裂了

到底强在哪：风格迁移和元素替换是核心亮点

冷静一下：老问题解决了多少？

速度和定价：开发者最关心的事

竞争格局：OpenAI 在追赶，不是在领跑

对开发者意味着什么

一个值得思考的趋势

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们