讯飞星火X2-Flash:30B小身板,万亿级效果

模型上新

科大讯飞发布星火X2-Flash,30B MoE架构模型基于华为昇腾910B训练,256K上下文,Agent场景实测接近万亿参数模型效果,token消耗仅为主流大模型三分之一。

讯飞星火X2-Flash:30B的小身板,打出万亿级的效果

4月29日,科大讯飞正式发布星火X2-Flash模型,API同步开放。一句话概括:这是一个30B参数的MoE模型,跑在华为昇腾910B上,支持256K上下文,在Agent场景里号称能打出接近万亿参数模型的效果——而token消耗只有主流大模型的三分之一。

这个定位很明确:不跟你拼参数量,拼的是性价比和实用性。

星火X2-Flash模型架构与核心参数概览

30B MoE,凭什么叫板万亿模型?

先看硬参数。星火X2-Flash采用MoE(Mixture of Experts)稀疏架构,总参数30B。MoE的好处老生常谈了——推理时只激活部分专家网络,同等参数规模下计算量远小于Dense模型。这也是为什么DeepSeek、Mixtral等一众玩家都在押注这条路线。

但30B的MoE要对标万亿级Dense模型的效果,这话说出来多少有点大。科大讯飞给出的依据来自AstronClaw的实测:在深度研究报告生成、Skill管理与调用、系统控制与执行等Agent高频任务上,X2-Flash的表现「接近业界万亿级参数模型」。

注意用词——「接近」,不是「超越」,也不是「持平」。这个措辞相对克制。考虑到MoE架构天然的效率优势,在特定任务上逼近大模型的效果并不算离谱,尤其是Agent场景本身对模型的指令遵循、工具调用、长上下文理解能力要求更高,而非单纯的知识储备量。

更值得关注的是成本数据:在相同工作流下,X2-Flash的整体token消耗不到当前主流大尺寸模型的三分之一。对于构建复杂Agent应用的开发者来说,这意味着同样的预算能跑三倍的量。在API按token计费的商业模式下,这个差距是实打实的。

256K上下文:国产算力上的长文本突破

256K的上下文窗口是X2-Flash的另一个卖点。放在整个行业里看,256K不算最长——Gemini早就推到了百万级,Claude也有200K——但对于一个30B的模型来说,256K已经相当可观。更关键的是,这个长上下文能力是在国产算力上实现的。

科大讯飞在技术细节上披露了不少干货。X2-Flash在国产算力上率先实现了DSA(稀疏注意力)与MTP(多token预测)的结合训练:

  • DSA(Dynamic Sparse Attention):不是对所有token做全量注意力计算,而是动态选择关键token进行注意力运算。这对长上下文场景至关重要——256K的上下文如果做全量Attention,计算量是平方级增长的,稀疏注意力把这个成本大幅压下来。
  • MTP(Multi-Token Prediction):模型一次预测多个token而非逐个生成,直接提升生成速度。这个技术Meta在论文里提过,DeepSeek V3也用了类似思路,但在国产芯片上落地的工程难度要大得多。

讯飞给出了一个很具体的数字:通过针对国产芯片的算子优化和分布式训练策略,训练效率从同规模A800集群的20%提升到了90%。

这个数字值得展开说。昇腾910B相比英伟达A800,在算子生态和软件栈成熟度上一直存在差距,很多团队在910B上跑大模型训练,实际利用率只有A800的几分之一。讯飞把这个比例拉到90%,如果数据属实,说明他们在昇腾平台的工程优化上确实下了功夫。

这不仅仅是一个技术指标的提升。在当前的芯片供应格局下,国产算力的实际可用性直接决定了国内大模型团队的训练天花板。把910B的利用率从20%拉到90%,等效于把可用算力翻了4倍多,这比单纯堆卡的意义大得多。

Agent场景:X2-Flash真正的战场

从发布信息来看,X2-Flash的核心定位不是通用聊天,而是Agent。

目前已经有AstronClaw和Loomy两个平台率先接入。科大讯飞还特别强调,X2-Flash已经实现了对OpenClaw、Claude Code等主流Agent框架的深度兼容。

这个兼容性很重要。当下Agent生态正在快速成型,开发者选择模型时不只看跑分,更看能不能无缝接入现有的工具链。如果一个模型需要大量适配工作才能跑通Agent流程,再好的跑分也会被弃用。X2-Flash主动兼容主流框架,说明讯飞很清楚自己的目标用户是谁。

讯飞给了一个具体的应用案例:用X2-Flash创建一个复杂的视频生成Skill。模型在理解详细需求后,能快速生成完整的技能结构、核心功能说明和使用案例。这类任务考验的不是模型的创意能力,而是结构化输出、指令遵循和长上下文理解——恰好是MoE架构擅长的领域。

在Agent强化学习训练场景中,X2-Flash通过DSA结构优化,采样解码效率最高提升2倍以上。这解决了一个很实际的痛点:Agent的RL训练需要大量的采样-推理循环,如果每次采样都很慢,整个训练流程就会被卡住。在910B上,这个问题尤其严重,因为国产芯片在解码阶段的吞吐量本身就不如A系列。X2-Flash的DSA优化相当于在软件层面补上了硬件的短板。

放在讯飞的大模型版图里看

要理解X2-Flash的定位,需要把它放在讯飞整个星火系列的产品线里看。

今年2月,讯飞刚发布了星火X2——一个293B参数的MoE模型,定位是对标GPT-5.2和Gemini-3-Pro的旗舰模型。在AIME 2025测试中拿到95.7分,MMLU Pro上87.3分,确实是国产第一梯队的水平。

而X2-Flash是X2的轻量化版本,参数从293B砍到30B,定位从「全能旗舰」变成「Agent专精」。这个产品策略和行业趋势一致——大模型厂商都在做模型矩阵,旗舰模型负责跑分和品牌,轻量模型负责走量和落地。OpenAI有GPT-4o mini,Anthropic有Claude Haiku,Google有Gemini Flash,讯飞的X2-Flash走的是同一条路。

更值得注意的是,就在今天下午的业绩说明会上,科大讯飞总裁吴晓如透露了一个重磅信息:今年10月,讯飞将在华为昇腾950平台上发布中国首个对标业界最先进主流模型的旗舰大模型。

昇腾950是华为下一代AI芯片,性能相比910B预计有大幅提升。如果讯飞能在950上训出真正对标国际顶尖水平的模型,那X2-Flash在910B上积累的工程经验——DSA、MTP、分布式训练优化——都会成为重要的技术储备。

从这个角度看,X2-Flash不只是一个产品发布,更像是讯飞在国产算力上的一次技术验证和能力预演。

财务现实:亏损中的AI投入

不过,技术叙事之外也要看看财务现实。讯飞同步披露的2026年一季度财报显示:

指标 数值 同比变化
营业总收入 52.74亿元 +13.23%
归母净利润 -1.70亿元 +12.17%(亏损收窄)
扣非净利润 -4.30亿元 -88.58%
经营现金流 -10.69亿元 -50.06%

营收在增长,但扣非净利润大幅下滑,经营现金流也在恶化。这说明讯飞在AI上的投入仍然处于「烧钱换规模」的阶段。不过2025年全年预告显示净利润7.85亿到9.5亿,同比增长40%-70%,说明下半年有望改善。

对于开发者来说,厂商的财务状况直接关系到API服务的稳定性和持续性。讯飞作为A股上市公司,有持续的营收支撑,这一点比很多纯烧融资的创业公司要稳。

开发者怎么接入?

星火X2-Flash的API已经同步开放,接入地址:

https://xinghuo.xfyun.cn/sparkapi

从已有信息来看,X2-Flash兼容OpenClaw和Claude Code等主流Agent框架,开发者可以在现有工作流中直接替换模型端点进行测试。

如果你正在构建Agent应用,X2-Flash值得试一试的场景包括:

  • 长上下文Agent交互:256K的窗口足以覆盖大多数多轮对话和文档分析场景
  • 复杂Skill编排:模型在结构化输出和指令遵循上的表现是核心卖点
  • 成本敏感的批量任务:token消耗降到三分之一,对高频调用场景的成本影响显著

当然,「接近万亿参数模型效果」这个说法还需要更多独立评测来验证。建议开发者在自己的实际业务场景中做A/B测试,而不是只看官方跑分。

目前,OpenAI Hub 也已支持星火系列模型的接入,开发者可以用统一的API格式调用,省去单独对接的麻烦。

写在最后

星火X2-Flash的发布,折射出国产大模型竞争的一个新趋势:战场正在从「参数军备竞赛」转向「效率和场景落地」。30B的模型不追求在通用跑分上碾压一切,而是在Agent这个具体赛道上做到够用且便宜。

这个思路是对的。对大多数开发者来说,一个便宜三倍、效果够用的模型,比一个贵三倍、跑分高5%的模型有用得多。

而讯飞在国产算力上的工程突破——把910B的训练效率从20%拉到90%——可能比模型本身更有长期价值。在芯片受限的大背景下,谁能把国产算力用得更好,谁就有更大的训练预算,也就有更多的模型迭代空间。

10月的昇腾950旗舰模型,才是讯飞真正的大考。X2-Flash是热身,但这个热身的成绩单,还算好看。


参考来源