中国移动 MoMA 上线:一个 API 调 300+ 模型,Token 成本砍 30%

产品更新

中国移动今日正式发布 MoMA 模型服务平台,统一 API 网关接入超 300 款主流大模型,基于国产算力和自研推理引擎,将单位 Token 成本压降约 30%,并首创智能路由引擎与机密模型服务。

中国移动 MoMA 上线:一个 API 调 300+ 模型,Token 成本砍 30%

5 月 8 日,中国移动正式对外发布移动模型服务平台 MoMA(Mixture of Models and Agents)。一句话概括这件事:央企下场做 AI 模型聚合,一个统一 API 网关后面挂着 300 多款业界主流模型,单位 Token 成本压降约 30%,资源占用率降低 50% 以上。

这不是 MoMA 第一次露面。早在去年 7 月的 WAIC,中国移动九天人工智能研究院就发布了 MoMA 的雏形,当时的定位是"多模型与智能体聚合及服务引擎",聚合了 15+ 模型和 20+ 智能体。今天这次发布,是从研究院的技术原型走到运营商级商用平台——模型规模直接翻了 20 倍,运营模式也升级为"Token 集约化"。

中国移动 MoMA 平台架构示意图

一个 Key 调三百款模型,但这事的看点不只是数量

模型聚合平台不是新概念。海外有 OpenRouter,国内做这件事的也不止中国移动一家。MoMA 真正值得关注的有三点:底座是国产算力 + 自研推理引擎首创 Token 集约化运营带运营商级 SLA 的智能路由

按官方披露,MoMA 当前接入的模型清单覆盖:

  • 中国移动自研基座大模型 九天
  • DeepSeek 全系(含 R 系推理模型)
  • 阿里 通义千问
  • 字节 豆包
  • 月之暗面 Kimi
  • 智谱 GLM
  • 以及其他文本生成、语音处理、多模态理解类模型

能力侧覆盖文本、语音、视觉多模态,场景侧明显是奔着政务、金融、工业、医疗这些 G 端和高合规行业去的——这也是中国移动作为央企运营商做这件事的天然优势:信创和合规这道门槛,互联网厂商不一定迈得过去。

Token 集约化:从"卖算力"到"卖词元"

这是 MoMA 在叙事上和其他聚合平台拉开差距的关键。

传统模式下,企业用大模型要么自己买卡部署,要么按 API 调用量分别向各家厂商付费。前者重资产,长尾模型用得少但卡得占着;后者每家计费规则、SLA、限流策略都不一样,多模型业务的成本测算和预算管理是一笔糊涂账。

MoMA 的做法是把 Token 抽象成统一的运营单位。底层基于国产算力池化,配合自研推理引擎,对长尾模型做资源调度——简单理解就是不再让那些低频使用的模型独占显存,而是按需调度。再叠加智能缓存、上下文复用、Token 压缩等推理侧优化,整个链路把单位 Token 成本砍了约 30%,资源占用率降低 50% 以上。

这个数字什么概念?50% 的资源占用下降,对一个动辄要部署几十款模型的运营商级平台来说,意味着同样的算力可以服务双倍以上的请求。

智能路由引擎:成本、效果、均衡,三档随便切

MoMA 这次明确把"智能路由引擎"作为首创点拿出来讲。它提供三种策略:

  • 成本优先:往便宜的小参数模型上路由
  • 效果优先:硬刚最强模型,钱花到位
  • 均衡优先:在效果-成本帕累托曲线上找最优点

背后的技术细节其实在去年的 MoMA 白皮书里已经披露过——核心是九天团队自己提的 PD²-Matrix(Problem-difficulty vs. Domain Matrix)框架:把任务按"问题复杂度"和"知识领域"两个正交维度切成网格,每个网格里跑差异化评测,给每个模型画一张能力高维表征图。再用 Pareto 优化拟合得分-成本曲线,做动态权衡。

说人话就是:MoMA 知道什么任务该派谁去,而不是无脑路由到最贵的那个。

工程层面,MoMA 用的是分层路由

  • 一级路由:分发专家模型 / 简单任务 / 复杂任务
  • 二级路由:在准确度和成本约束下,按问题复杂度派给不同参数规模(1B、3B、8B、75B、200B)的模型
  • Monitor Model:实时监控推理输出,复盘路由质量,动态优化

官方给过一个数字:百万级用户场景下,MoMA 的动态路由相比固定使用 75B 模型,整体响应速度提升 42%。这是一个很实在的工程指标——不是"达到 GPT-4 水平"那种营销话术。

对复杂多意图任务,MoMA 用的是 Planner-Executor-Summarizer 架构,根据具体任务动态切换 ReAct、Route、Parallelize、Swarm 等模式。这套思路其实和现在主流 Agent 框架(LangGraph、AutoGen 那一套)是同源的,差别在于把规划层和执行层做了路由解耦,避免中心规划模型对所有子智能体输出做重复评估,降低幻觉、缩短响应。

故障秒级切换 + 机密容器:运营商的活儿

智能路由的另一个隐藏价值是容灾。MoMA 承诺当某个模型出现超时、限流或故障时,平台可自动秒级切换到备选模型。对生产环境来说,这比"模型选得多"更重要——你调 DeepSeek 被限流,平台直接帮你切到 Qwen 同档位模型,业务不中断。

这种 SLA 思维是运营商的强项。

安全侧 MoMA 还推了"机密模型"服务:把模型部署在机密容器里,基于硬件隔离技术(大概率是 TEE 路线)保障计算过程的数据安全,从芯片到应用做全链路机密计算。这条产品线明显是冲着政务、金融数据不出域的硬性合规要求去的,也是互联网厂商最难复制的护城河。

协议层:兼容 MCP 和 A2A,但加了一层企业级增强

值得一提的是,MoMA 在协议层面没有另起炉灶,而是兼容了 Anthropic 的 MCP(Model Context Protocol)和 Google 的 A2A(Agent2Agent)。但中国移动指出原生 MCP 的两个软肋:模型与工具交互缺乏安全约束、工具对模型的可调度性缺少规约。

所以 MoMA 在兼容基础上扩展了统一认证、安全通信工具可调度性增强,做出了"中国移动特色的 A2A、MCP"。这条思路对企业级落地很关键——开源协议的优雅设计在生产环境往往会撞上权限管理、审计追溯、调用限流这些土工程。

怎么看 MoMA:央企做聚合平台的逻辑

回到一个本质问题:模型聚合这件事,央企和互联网厂商谁更有戏?

互联网厂商的优势是工程迭代快、生态触达广。但 MoMA 走的是另一条路:国产算力底座 + 运营商级 SLA + 合规可信。这三件事捆在一起,瞄准的是 G 端和大型 B 端市场——这些客户对前沿模型半年迭代一次的速度并不敏感,对"数据不出域"和"7×24 不掉线"才敏感。

MoMA 已经在中国移动自家的灵犀智能体 2.0 上跑通,灵犀升级为跨领域、多任务、自规划的通用型智能体,覆盖通信、生活、出行、办公、家庭场景。这是个不小的内部 PoC,至少证明了百万级用户场景下平台是能扛得住的。

对开发者来说,多一个国产可信的模型聚合选项不是坏事。尤其是做政企项目的同学,原本要对接五六家模型 API 做合规适配的活儿,现在理论上可以收敛到一个 MoMA 网关上。

顺带一提,OpenAI Hub 也在做类似的统一接入——一个 Key 调用 GPT、Claude、Gemini、DeepSeek 等主流模型,国内直连、兼容 OpenAI 格式。两者目标客户其实有错位:OpenAI Hub 主打开发者侧的全球主流模型一站式接入,MoMA 则是央企体系内信创合规的聚合底座。开发者完全可以按场景选择。

后面要看什么

MoMA 现在的故事讲得很完整,但有几件事还要等市场检验:

  1. 300+ 模型的实际可用性:有多少是真接通了在线 API,有多少是"支持但需走流程"
  2. Token 计价是否真的统一:不同模型上下文窗口、输入输出比、推理强度差异极大,统一 Token 单价的精算逻辑是关键
  3. 第三方开发者门槛:目前 MoMA 主要服务移动云客户和政企,对个人开发者和中小企业是否开放、定价如何,官方还没明确
  4. 白皮书中提到的 PD²-Matrix 评测体系:能不能开源出来供社区验证,决定了"智能路由"的可信度

模型聚合赛道在 2025 年已经从"有没有"卷到了"好不好用"。MoMA 这一发,把战场从互联网厂商之间,扩展到了运营商和云厂商之间。接下来值得看的,是中国电信和中国联通会不会跟进,以及阿里云、火山引擎等模型托管平台会用什么差异化策略应对。

参考来源