阶跃星辰今天把 Step 3.7 Flash 推上了开放平台。这次没有发布会,也没有铺天盖地的预热,文档页面上线、API 通道开放,整个动作干脆利落——很像他们一贯的风格:把活干完,再让数据说话。
从命名就能看出来,这是 Step 3.5 Flash 的一次中段升级,不是大版本跳跃,但定位比上一代更清晰:面向生产级 Agent 的高效率 Flash 模型。官方页面把卖点压缩成四行字——原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化。每一条都不是空话,每一条都直指现在 Agent 应用里最难啃的硬骨头。

从 Step 3 到 Step 3.7 Flash:阶跃的路线越来越窄、也越来越深
回顾一下时间线会比较清楚。去年 7 月底,阶跃开源了 Step 3,那是一个 321B 总参、38B 激活的 MoE 多模态推理模型,靠 MFA(Multi-Matrix Factorization Attention)和 AFD(Attention-FFN Disaggregation)把解码成本压得很低,在国内外低端加速卡上都能跑出不错的吞吐。这一代奠定了阶跃的技术基调:不卷参数规模,卷推理效率。
今年开年,Step 3.5 Flash 接棒。总参数掉到 196B,激活参数砍到 11B,但靠稀疏 MoE + MTP-3(多 token 并行预测),单卡推理速度直接拉到 100~300 token/s,编码任务峰值能跑 350。当时和 Kimi K2.5、Qwen3-Max-Thinking 同期发布,参数量只有它们的五分之一,分数却咬得很紧,性价比这张牌打得相当漂亮。
现在的 Step 3.7 Flash,从命名上看是 3.5 的延伸,但从功能取向看,更像是阶跃对过去半年 Agent 应用反馈的一次回收。3.5 那一代发出去之后,社区里跑 Agent 的开发者反馈普遍集中在三件事:工具调用偶尔抽风、多模态在浏览器场景下处理网页截图不够稳、长链路任务里上下文管理吃不消。3.7 这次更新,正好对应这几条。
四个变化值得开发者关注
1. 视觉搜索和联网增强成为一等公民
之前的多模态模型,处理图片基本就是「看一眼,理解一下,回答问题」。但在真实 Agent 场景里,模型经常需要在浏览器里点开网页、读取截图、判断按钮位置、再决定下一步操作。这套流程对视觉理解和动作规划的耦合度非常高。
Step 3.7 Flash 把「联网与视觉搜索增强」单独列为能力点,意味着官方对这个链路做了端到端的优化。具体表现是模型在处理网页截图、图表 OCR、UI 元素定位这类任务时不再依赖外挂工具,而是把视觉感知和搜索决策直接编织进推理过程。对做浏览器 Agent、做 RPA 自动化的团队来说,这一刀切到了痛点上。
2. 工具调用的可靠性升级
「高可靠工具调用与编排」这句话听起来像市场词,但落到工程层面其实很具体。Agent 应用里最折磨人的不是模型不会调工具,而是它调得不稳——一会儿参数格式错了,一会儿该并发的串行了,一会儿又在不该停的地方停了。
3.7 Flash 主打的提升点之一就是工具调用的结构化输出稳定性,以及多工具编排时的规划准确率。这部分官方暂时没给详细 benchmark,但从开放平台文档里能看到,新增了一批针对 function calling 失败重试、并行调用、嵌套调用的最佳实践示例——一个团队会不会在工具调用上下功夫,看文档结构就能看出来。
3. 推理速度仍然是核心叙事
Flash 系列的标签从来就是「快」。3.5 已经做到了 100~300 token/s,3.7 在保留稀疏 MoE + MTP 的架构基础上,继续把首 token 延迟和长上下文下的吞吐做了优化。对于做实时对话、做语音 Agent、做交互式编程助手的应用,这种速度不是「锦上添花」,而是产品形态能不能成立的前提。
你可以这样理解:一个 50 token/s 的模型,跑出来用户是「在等」;一个 200 token/s 的模型,跑出来用户是「在看」;而 300+ token/s 的模型,用户的体感已经是「在用」了。这之间的差距,比 benchmark 分数差几个点要重要得多。
4. Agent 生态兼容做到位
最后一条「Agent 生态兼容优化」翻译成人话就是:对接 LangChain、对接 LlamaIndex、对接 MCP、对接各种主流 Agent 框架时,少踩坑。这一条不性感,但是开发者会真心鼓掌的更新——很多团队选模型不是因为它最强,而是因为换它代价最小。

跟谁比?跟自己比、跟 Kimi 比、跟 GPT 比
国内现在 Flash 这条赛道挺热闹的。除了阶跃,Moonshot 的 Kimi K2.5、阿里的 Qwen3-Max-Thinking 都在推自己的高速版本。海外这边,Gemini 2.5 Flash、Claude Haiku 4.5、GPT-5 Mini 也在抢同一块蛋糕。
阶跃在这场仗里的位置比较微妙。它没有阿里那种全栈生态加持,也没有 Moonshot 那种 C 端用户基数,但它有一个其他家不太具备的优势:从 Step 1 开始就坚持原生多模态。这意味着它的视觉、语言、推理不是后期对齐拼出来的,而是从训练阶段就长在一起的。在多模态 Agent 这种需要视觉和语言深度交错的场景下,原生多模态的架构红利会逐步显现。
如果跟自家的 Step 3.5 Flash 比,3.7 不是性能的代际跳跃,而是工程化的打磨——更稳的工具调用、更好的视觉搜索、更顺的 Agent 框架对接。这种「打磨型升级」对一线开发者来说,其实比刷榜单分数更有意义。
如果跟 Kimi K2.5 比,3.7 Flash 的激活参数大概率仍然只是它的一小部分(K2.5 是万亿级别),但靠架构优势能把性能差距压缩到一个可接受的范围。换句话说:你愿不愿意用 5% 的成本,换 90% 的性能?这个 trade-off 是 Flash 系列的底层逻辑。
部署和使用
Step 3.7 Flash 目前主要通过阶跃星辰开放平台提供 API 调用,兼容 OpenAI 格式。如果你用过 Step 3.5 Flash,迁移成本几乎为零——改个 model 字段就行。
国内开发者如果想统一管理多家模型 Key,OpenAI Hub 这边已经第一时间接入了 Step 3.7 Flash,可以和 GPT、Claude、Gemini、DeepSeek 一起用同一个 endpoint 调用,适合做多模型对比测试或者灰度切换。
至于开源版本——阶跃过去几代 Flash 都遵循了「先 API 后开源」的节奏,Step 3 和 Step 3.5 Flash 最终都把权重放到了 ModelScope 和 Hugging Face 上。3.7 大概率也会走同样的路径,但具体时间官方暂时没给口风。
一点判断
说点不那么客气的。
国内 Flash 模型现在已经卷到一个挺尴尬的位置:大家在 benchmark 上互相超来超去,差距其实越来越小,真正拉开差距的反而是那些不太容易量化的东西——工具调用稳不稳、多模态在边角 case 下崩不崩、长上下文里有没有「失忆」、并发调用时延迟分布漂不漂亮。
这些东西测不出来,但用得出来。
Step 3.7 Flash 这次更新,没有讲什么颠覆性的故事,但每一条改动都指向真实的开发者痛点。这种「不讲故事、只干事」的发布节奏,反而是模型行业现阶段最值得鼓励的姿势。模型发布会的剧本太多了,开发者要的其实就一句:它能不能让我的应用少崩点?
如果阶跃这次能用 3.7 Flash 给出肯定的答案,那它在 Agent 这条赛道上的位置会越来越稳。短期内别指望它做出什么参数王炸,但在「让 Agent 真正能跑通」这件事上,它现在的方向是对的。
至于实际效果,等接下来一两周开发者社区的真机测试结果出来再下定论比较稳妥。3.5 Flash 当时也是发完一周后口碑才慢慢起来的,这次大概率也是同样的路径。
参考来源
- linux.do 社区讨论:StepFun 发布新模型 Step 3.7 Flash - 国内开发者社区第一时间的发布讨论和实测反馈,能看到一手的速度和工具调用测试结果。