阶跃星辰图像编辑再升级,Step Image Edit 2 全量上线

模型上新

阶跃星辰于4月29日正式发布新一代图像生成编辑模型 Step Image Edit 2,已全量上线阶跃星辰开放平台和 Step Plan,延续其在多模态领域的密集发力节奏。

阶跃星辰图像编辑再升级,Step Image Edit 2 全量上线开放平台

4月29日,阶跃星辰正式发布新一代图像生成编辑模型 Step Image Edit 2,并同步全量上线「阶跃星辰开放平台」和 Step Plan。这是阶跃星辰在图像编辑赛道的又一次迭代——距离上一代开源模型 Step1X-Edit 发布,仅仅过去了一天。

没错,一天。

这个节奏本身就值得说道。

从 Step1X-Edit 到 Step Image Edit 2:一天之内的两步棋

先理清时间线。4月28日,阶跃星辰发布并开源了通用图像编辑模型 Step1X-Edit,上线当天就冲上了 Hugging Face 的 Spaces 趋势热榜。这款 19B 参数的模型主打「听得懂、改得准、保得住」,覆盖文字替换、人物美化、风格迁移、材质变换等 11 类高频图像编辑任务,在自研基准测试集 GEdit-Bench 上拿下了开源 SOTA。

然后第二天,Step Image Edit 2 就来了。

这两者的关系,更像是「开源版」和「商用版」的分工。Step1X-Edit 面向开发者社区,代码和权重全部开放,你可以在 GitHub、Hugging Face、ModelScope 上直接拉取部署;Step Image Edit 2 则是平台级产品,通过阶跃星辰开放平台的 API 直接调用,面向的是需要稳定服务、不想自己折腾推理部署的商业用户和应用开发者。

这种「开源打声量 + 闭源 API 做商业化」的双轨策略,在国内大模型公司里已经越来越常见。智谱、DeepSeek、百川都在这么干。但阶跃星辰把两步棋压缩到 24 小时内打出来,节奏确实激进。

Step Image Edit 2 图像编辑效果展示,包含文字替换、风格迁移、人物美化等多种编辑场景的对比图

Step1X-Edit 的技术底子:三项关键能力

虽然 Step Image Edit 2 的具体技术细节阶跃星辰尚未完整披露,但从前一天发布的 Step1X-Edit 可以窥见这一代图像编辑模型的技术方向。毕竟,商用版大概率是在开源版基础上做了进一步的工程优化和能力增强。

Step1X-Edit 的核心能力可以拆成三块:

1. 语义精准解析

这是图像编辑模型最基础也最容易翻车的环节。用户说「把背景里的猫换成狗」,模型得准确理解「背景里的猫」指的是哪个区域、「换成狗」是什么意思。听起来简单,但当指令变复杂——比如「把左边那个人的衣服换成蓝色西装,但保持右边那个人不变」——很多模型就开始犯迷糊了。

Step1X-Edit 在 GEdit-Bench 的语义理解指标上大幅领先其他开源模型,说明它在「听懂人话」这件事上确实下了功夫。这背后大概率是多模态大模型的语言理解能力在起作用——阶跃星辰本身就有 Step 系列的语言模型底座,把语言理解能力迁移到图像编辑的指令解析上,是顺理成章的事。

2. 身份一致性保持

这是图像编辑领域的老大难问题。你让模型给一张人像换个发型,结果脸也变了;你让它改个背景,结果人物的衣服纹理也跟着飘了。所谓「身份一致性」,就是在执行编辑操作的同时,确保不该变的部分纹丝不动。

这个能力在商业场景里尤其关键。电商产品图需要换背景但产品细节不能变,社交媒体修图需要美化但五官不能走形,广告素材需要风格迁移但品牌元素必须保留——这些场景对一致性的要求都是零容忍的。

3. 高精度区域级控制

不是所有编辑都是全局的。很多时候用户只想动画面的一小块区域,其他地方完全不碰。区域级控制能力决定了模型能不能做到「指哪打哪」,而不是「牵一发而动全身」。

这三项能力叠加起来,构成了一个实用的图像编辑模型应该具备的基本功。Step1X-Edit 在 GEdit-Bench 上的表现证明了它在开源领域的领先地位,而 Step Image Edit 2 作为商用版本,理论上只会更强。

GEdit-Bench:自研评测的意义和局限

值得单独说一下阶跃星辰自研的 GEdit-Bench 基准测试集。

现有的图像编辑评测基准大多存在一个问题:测试数据和真实用户需求之间有明显的 gap。学术界常用的评测集往往偏向特定类型的编辑任务,跟用户在实际产品中提出的千奇百怪的编辑请求差距不小。

GEdit-Bench 的做法是从社区真实编辑请求中采集评测数据,这个思路是对的——评测应该尽可能贴近真实使用场景。但也要看到,自研评测集天然存在「既当运动员又当裁判」的嫌疑。阶跃星辰在自己设计的赛道上拿第一,说服力多少要打个折扣。

当然,Step1X-Edit 已经开源,社区可以自行验证。Hugging Face 上的热度也从侧面说明,至少在开发者的初步体验中,这个模型的表现是过关的。

阶跃星辰的多模态野心

把视角拉远一点看,Step Image Edit 2 的发布不是一个孤立事件,而是阶跃星辰多模态战略的一个切面。

根据公开信息,最近一个月阶跃星辰已经连续上新了三款多模态模型:

  • 图生视频开源模型:视频生成赛道的布局
  • 多模态推理模型:强化模型的跨模态理解和推理能力
  • Step1X-Edit / Step Image Edit 2:图像编辑赛道的迭代

目前,阶跃星辰 Step 系列基座模型矩阵中,多模态模型的占比已经达到了 7 成。这个比例相当高,说明阶跃星辰已经把多模态作为核心差异化方向来押注。

这个选择有其逻辑。纯文本大模型赛道已经极度拥挤,OpenAI、Anthropic、Google 在前面,国内还有一堆玩家在卷。但多模态——尤其是图像生成和编辑——仍然是一个技术壁垒高、产品化空间大、商业化路径相对清晰的方向。电商、广告、设计、社交媒体,每个领域都有海量的图像编辑需求等着被 AI 吃掉。

图像编辑赛道:谁在场上

把 Step Image Edit 2 放到整个图像编辑赛道里看,竞争格局大致是这样的:

玩家 代表产品 特点
Adobe Firefly / Photoshop AI 专业级工具链整合,设计师生态
Midjourney Midjourney Editor 生成能力强,编辑能力在追赶
Stability AI Stable Diffusion 系列 开源生态最大,社区驱动
Google Imagen / Gemini 多模态 端到端多模态,搜索场景整合
阶跃星辰 Step Image Edit 2 开源+商用双轨,国内多模态头部
智谱 AI CogView 系列 国内开源图像生成代表

阶跃星辰的差异化在于:它同时提供了开源模型(Step1X-Edit)和商用 API(Step Image Edit 2),开发者可以根据自己的需求选择自部署还是调 API。这种灵活性在国内市场是有吸引力的——很多中小团队既想要模型能力,又不想被单一平台锁定。

不过,图像编辑赛道的竞争远不止模型能力本身。Adobe 的护城河在于几十年积累的专业工具链和设计师用户习惯;Midjourney 的优势在于社区和品牌认知;Stability AI 靠的是开源生态的网络效应。阶跃星辰要在这个赛道站稳,光靠模型指标领先是不够的,还需要在开发者生态、应用场景落地、API 易用性等方面持续投入。

对开发者意味着什么

如果你是一个正在做图像相关应用的开发者,Step Image Edit 2 的全量上线意味着你多了一个可以直接调用的选项。

从阶跃星辰开放平台的介绍来看,Step Image Edit 2 定位为「图像编辑与通用生图大模型」,强调三个特性:

  • 智能创作:不只是简单的滤镜或裁剪,而是基于语义理解的智能编辑
  • 效能极致:在模型能力和推理效率之间做了平衡
  • 秒级响应:API 调用的延迟控制在秒级,适合需要实时交互的应用场景

对于想要自己部署的团队,Step1X-Edit 的开源版本也是一个值得考虑的选项。19B 的参数量不算小,但在当前的 GPU 硬件条件下,单卡或双卡部署是可行的。开源社区已经可以在 GitHub 和 Hugging Face 上获取完整的代码和权重。

具体的 API 调用方式和定价,开发者可以直接前往阶跃星辰开放平台(platform.stepfun.com)查看文档。

一个更大的趋势

最后说一个更宏观的观察。

2025 年以来,国内大模型公司的发布节奏明显加快,而且越来越多地集中在多模态方向。图像生成、图像编辑、视频生成、多模态理解——这些能力正在从「实验室 demo」快速走向「可调用的 API 服务」。

这背后的驱动力很直接:纯文本大模型的商业化天花板已经隐约可见,而多模态能力直接对应着更多、更具体、更愿意付费的应用场景。一张电商主图的自动生成、一段短视频的智能编辑、一套广告素材的批量制作——这些场景的付费意愿和付费能力都远高于「帮我写一封邮件」。

阶跃星辰在一个月内连发三款多模态模型,正是这个趋势的缩影。Step Image Edit 2 能不能在激烈的竞争中跑出来,还需要时间和市场验证。但至少从技术路线和产品节奏来看,阶跃星辰的多模态押注是认真的。

对于开发者来说,好消息是选择越来越多,能力越来越强,价格大概率还会继续卷下去。图像编辑这个赛道,2025 年下半年大概率还会更热闹。


阶跃星辰开放平台目前已支持 Step Image Edit 2 的 API 调用,开发者可前往 platform.stepfun.com 了解详情。对于习惯通过统一接口调用多家模型的开发者,也可以关注 OpenAI Hub 等 API 聚合平台是否会后续接入。


参考来源