科大讯飞发布星火X2-Flash，30B MoE架构模型基于华为昇腾910B训练，256K上下文，Agent场景实测接近万亿参数模型效果，token消耗仅为主流大模型三分之一。

讯飞星火X2-Flash：30B的小身板，打出万亿级的效果

4月29日，科大讯飞正式发布星火X2-Flash模型，API同步开放。一句话概括：这是一个30B参数的MoE模型，跑在华为昇腾910B上，支持256K上下文，在Agent场景里号称能打出接近万亿参数模型的效果——而token消耗只有主流大模型的三分之一。

这个定位很明确：不跟你拼参数量，拼的是性价比和实用性。

星火X2-Flash模型架构与核心参数概览

30B MoE，凭什么叫板万亿模型？

先看硬参数。星火X2-Flash采用MoE（Mixture of Experts）稀疏架构，总参数30B。MoE的好处老生常谈了——推理时只激活部分专家网络，同等参数规模下计算量远小于Dense模型。这也是为什么DeepSeek、Mixtral等一众玩家都在押注这条路线。

但30B的MoE要对标万亿级Dense模型的效果，这话说出来多少有点大。科大讯飞给出的依据来自AstronClaw的实测：在深度研究报告生成、Skill管理与调用、系统控制与执行等Agent高频任务上，X2-Flash的表现「接近业界万亿级参数模型」。

注意用词——「接近」，不是「超越」，也不是「持平」。这个措辞相对克制。考虑到MoE架构天然的效率优势，在特定任务上逼近大模型的效果并不算离谱，尤其是Agent场景本身对模型的指令遵循、工具调用、长上下文理解能力要求更高，而非单纯的知识储备量。

更值得关注的是成本数据：在相同工作流下，X2-Flash的整体token消耗不到当前主流大尺寸模型的三分之一。对于构建复杂Agent应用的开发者来说，这意味着同样的预算能跑三倍的量。在API按token计费的商业模式下，这个差距是实打实的。

256K上下文：国产算力上的长文本突破

256K的上下文窗口是X2-Flash的另一个卖点。放在整个行业里看，256K不算最长——Gemini早就推到了百万级，Claude也有200K——但对于一个30B的模型来说，256K已经相当可观。更关键的是，这个长上下文能力是在国产算力上实现的。

科大讯飞在技术细节上披露了不少干货。X2-Flash在国产算力上率先实现了DSA（稀疏注意力）与MTP（多token预测）的结合训练：

DSA（Dynamic Sparse Attention）：不是对所有token做全量注意力计算，而是动态选择关键token进行注意力运算。这对长上下文场景至关重要——256K的上下文如果做全量Attention，计算量是平方级增长的，稀疏注意力把这个成本大幅压下来。
MTP（Multi-Token Prediction）：模型一次预测多个token而非逐个生成，直接提升生成速度。这个技术Meta在论文里提过，DeepSeek V3也用了类似思路，但在国产芯片上落地的工程难度要大得多。

讯飞给出了一个很具体的数字：通过针对国产芯片的算子优化和分布式训练策略，训练效率从同规模A800集群的20%提升到了90%。

这个数字值得展开说。昇腾910B相比英伟达A800，在算子生态和软件栈成熟度上一直存在差距，很多团队在910B上跑大模型训练，实际利用率只有A800的几分之一。讯飞把这个比例拉到90%，如果数据属实，说明他们在昇腾平台的工程优化上确实下了功夫。

这不仅仅是一个技术指标的提升。在当前的芯片供应格局下，国产算力的实际可用性直接决定了国内大模型团队的训练天花板。把910B的利用率从20%拉到90%，等效于把可用算力翻了4倍多，这比单纯堆卡的意义大得多。

Agent场景：X2-Flash真正的战场

从发布信息来看，X2-Flash的核心定位不是通用聊天，而是Agent。

目前已经有AstronClaw和Loomy两个平台率先接入。科大讯飞还特别强调，X2-Flash已经实现了对OpenClaw、Claude Code等主流Agent框架的深度兼容。

这个兼容性很重要。当下Agent生态正在快速成型，开发者选择模型时不只看跑分，更看能不能无缝接入现有的工具链。如果一个模型需要大量适配工作才能跑通Agent流程，再好的跑分也会被弃用。X2-Flash主动兼容主流框架，说明讯飞很清楚自己的目标用户是谁。

讯飞给了一个具体的应用案例：用X2-Flash创建一个复杂的视频生成Skill。模型在理解详细需求后，能快速生成完整的技能结构、核心功能说明和使用案例。这类任务考验的不是模型的创意能力，而是结构化输出、指令遵循和长上下文理解——恰好是MoE架构擅长的领域。

在Agent强化学习训练场景中，X2-Flash通过DSA结构优化，采样解码效率最高提升2倍以上。这解决了一个很实际的痛点：Agent的RL训练需要大量的采样-推理循环，如果每次采样都很慢，整个训练流程就会被卡住。在910B上，这个问题尤其严重，因为国产芯片在解码阶段的吞吐量本身就不如A系列。X2-Flash的DSA优化相当于在软件层面补上了硬件的短板。

放在讯飞的大模型版图里看

要理解X2-Flash的定位，需要把它放在讯飞整个星火系列的产品线里看。

今年2月，讯飞刚发布了星火X2——一个293B参数的MoE模型，定位是对标GPT-5.2和Gemini-3-Pro的旗舰模型。在AIME 2025测试中拿到95.7分，MMLU Pro上87.3分，确实是国产第一梯队的水平。

而X2-Flash是X2的轻量化版本，参数从293B砍到30B，定位从「全能旗舰」变成「Agent专精」。这个产品策略和行业趋势一致——大模型厂商都在做模型矩阵，旗舰模型负责跑分和品牌，轻量模型负责走量和落地。OpenAI有GPT-4o mini，Anthropic有Claude Haiku，Google有Gemini Flash，讯飞的X2-Flash走的是同一条路。

更值得注意的是，就在今天下午的业绩说明会上，科大讯飞总裁吴晓如透露了一个重磅信息：今年10月，讯飞将在华为昇腾950平台上发布中国首个对标业界最先进主流模型的旗舰大模型。

昇腾950是华为下一代AI芯片，性能相比910B预计有大幅提升。如果讯飞能在950上训出真正对标国际顶尖水平的模型，那X2-Flash在910B上积累的工程经验——DSA、MTP、分布式训练优化——都会成为重要的技术储备。

从这个角度看，X2-Flash不只是一个产品发布，更像是讯飞在国产算力上的一次技术验证和能力预演。

财务现实：亏损中的AI投入

不过，技术叙事之外也要看看财务现实。讯飞同步披露的2026年一季度财报显示：

| 指标 | 数值 | 同比变化 | |------|------|----------| | 营业总收入 | 52.74亿元 | +13.23% | | 归母净利润 | -1.70亿元 | +12.17%（亏损收窄） | | 扣非净利润 | -4.30亿元 | -88.58% | | 经营现金流 | -10.69亿元 | -50.06% |

营收在增长，但扣非净利润大幅下滑，经营现金流也在恶化。这说明讯飞在AI上的投入仍然处于「烧钱换规模」的阶段。不过2025年全年预告显示净利润7.85亿到9.5亿，同比增长40%-70%，说明下半年有望改善。

对于开发者来说，厂商的财务状况直接关系到API服务的稳定性和持续性。讯飞作为A股上市公司，有持续的营收支撑，这一点比很多纯烧融资的创业公司要稳。

开发者怎么接入？

星火X2-Flash的API已经同步开放，接入地址：

https://xinghuo.xfyun.cn/sparkapi

从已有信息来看，X2-Flash兼容OpenClaw和Claude Code等主流Agent框架，开发者可以在现有工作流中直接替换模型端点进行测试。

如果你正在构建Agent应用，X2-Flash值得试一试的场景包括：

长上下文Agent交互：256K的窗口足以覆盖大多数多轮对话和文档分析场景
复杂Skill编排：模型在结构化输出和指令遵循上的表现是核心卖点
成本敏感的批量任务：token消耗降到三分之一，对高频调用场景的成本影响显著

当然，「接近万亿参数模型效果」这个说法还需要更多独立评测来验证。建议开发者在自己的实际业务场景中做A/B测试，而不是只看官方跑分。

目前，OpenAI Hub 也已支持星火系列模型的接入，开发者可以用统一的API格式调用，省去单独对接的麻烦。

写在最后

星火X2-Flash的发布，折射出国产大模型竞争的一个新趋势：战场正在从「参数军备竞赛」转向「效率和场景落地」。30B的模型不追求在通用跑分上碾压一切，而是在Agent这个具体赛道上做到够用且便宜。

这个思路是对的。对大多数开发者来说，一个便宜三倍、效果够用的模型，比一个贵三倍、跑分高5%的模型有用得多。

而讯飞在国产算力上的工程突破——把910B的训练效率从20%拉到90%——可能比模型本身更有长期价值。在芯片受限的大背景下，谁能把国产算力用得更好，谁就有更大的训练预算，也就有更多的模型迭代空间。

10月的昇腾950旗舰模型，才是讯飞真正的大考。X2-Flash是热身，但这个热身的成绩单，还算好看。

参考来源

科大讯飞星火X2-Flash模型发布：基于华为昇腾910B集群训练，最大256K上下文 - IT之家 — X2-Flash发布详情与技术参数
科大讯飞总裁吴晓如：今年10月将在华为昇腾950平台上发布国产旗舰大模型 - IT之家 — 吴晓如业绩说明会发言及一季度财务数据
神仙打架+1！讯飞星火X2硬核亮相，行业深度全面升级 - 知乎 — 星火X2系列技术架构与行业应用分析

讯飞星火X2-Flash：30B小身板，万亿级效果

讯飞星火X2-Flash：30B的小身板，打出万亿级的效果

30B MoE，凭什么叫板万亿模型？

256K上下文：国产算力上的长文本突破

Agent场景：X2-Flash真正的战场

放在讯飞的大模型版图里看

财务现实：亏损中的AI投入

开发者怎么接入？

写在最后

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们