中国移动今日正式发布 MoMA 模型服务平台，统一 API 网关接入超 300 款主流大模型，基于国产算力和自研推理引擎，将单位 Token 成本压降约 30%，并首创智能路由引擎与机密模型服务。

中国移动 MoMA 上线：一个 API 调 300+ 模型，Token 成本砍 30%

5 月 8 日，中国移动正式对外发布移动模型服务平台 MoMA（Mixture of Models and Agents）。一句话概括这件事：央企下场做 AI 模型聚合，一个统一 API 网关后面挂着 300 多款业界主流模型，单位 Token 成本压降约 30%，资源占用率降低 50% 以上。

这不是 MoMA 第一次露面。早在去年 7 月的 WAIC，中国移动九天人工智能研究院就发布了 MoMA 的雏形，当时的定位是"多模型与智能体聚合及服务引擎"，聚合了 15+ 模型和 20+ 智能体。今天这次发布，是从研究院的技术原型走到运营商级商用平台——模型规模直接翻了 20 倍，运营模式也升级为"Token 集约化"。

中国移动 MoMA 平台架构示意图

一个 Key 调三百款模型，但这事的看点不只是数量

模型聚合平台不是新概念。海外有 OpenRouter，国内做这件事的也不止中国移动一家。MoMA 真正值得关注的有三点：底座是国产算力 + 自研推理引擎、首创 Token 集约化运营、带运营商级 SLA 的智能路由。

按官方披露，MoMA 当前接入的模型清单覆盖：

中国移动自研基座大模型九天
DeepSeek 全系（含 R 系推理模型）
阿里 通义千问
字节豆包
月之暗面 Kimi
智谱 GLM
以及其他文本生成、语音处理、多模态理解类模型

能力侧覆盖文本、语音、视觉多模态，场景侧明显是奔着政务、金融、工业、医疗这些 G 端和高合规行业去的——这也是中国移动作为央企运营商做这件事的天然优势：信创和合规这道门槛，互联网厂商不一定迈得过去。

Token 集约化：从"卖算力"到"卖词元"

这是 MoMA 在叙事上和其他聚合平台拉开差距的关键。

传统模式下，企业用大模型要么自己买卡部署，要么按 API 调用量分别向各家厂商付费。前者重资产，长尾模型用得少但卡得占着；后者每家计费规则、SLA、限流策略都不一样，多模型业务的成本测算和预算管理是一笔糊涂账。

MoMA 的做法是把 Token 抽象成统一的运营单位。底层基于国产算力池化，配合自研推理引擎，对长尾模型做资源调度——简单理解就是不再让那些低频使用的模型独占显存，而是按需调度。再叠加智能缓存、上下文复用、Token 压缩等推理侧优化，整个链路把单位 Token 成本砍了约 30%，资源占用率降低 50% 以上。

这个数字什么概念？50% 的资源占用下降，对一个动辄要部署几十款模型的运营商级平台来说，意味着同样的算力可以服务双倍以上的请求。

智能路由引擎：成本、效果、均衡，三档随便切

MoMA 这次明确把"智能路由引擎"作为首创点拿出来讲。它提供三种策略：

成本优先：往便宜的小参数模型上路由
效果优先：硬刚最强模型，钱花到位
均衡优先：在效果-成本帕累托曲线上找最优点

背后的技术细节其实在去年的 MoMA 白皮书里已经披露过——核心是九天团队自己提的 PD²-Matrix（Problem-difficulty vs. Domain Matrix）框架：把任务按"问题复杂度"和"知识领域"两个正交维度切成网格，每个网格里跑差异化评测，给每个模型画一张能力高维表征图。再用 Pareto 优化拟合得分-成本曲线，做动态权衡。

说人话就是：MoMA 知道什么任务该派谁去，而不是无脑路由到最贵的那个。

工程层面，MoMA 用的是分层路由：

一级路由：分发专家模型 / 简单任务 / 复杂任务
二级路由：在准确度和成本约束下，按问题复杂度派给不同参数规模（1B、3B、8B、75B、200B）的模型
Monitor Model：实时监控推理输出，复盘路由质量，动态优化

官方给过一个数字：百万级用户场景下，MoMA 的动态路由相比固定使用 75B 模型，整体响应速度提升 42%。这是一个很实在的工程指标——不是"达到 GPT-4 水平"那种营销话术。

对复杂多意图任务，MoMA 用的是 Planner-Executor-Summarizer 架构，根据具体任务动态切换 ReAct、Route、Parallelize、Swarm 等模式。这套思路其实和现在主流 Agent 框架（LangGraph、AutoGen 那一套）是同源的，差别在于把规划层和执行层做了路由解耦，避免中心规划模型对所有子智能体输出做重复评估，降低幻觉、缩短响应。

故障秒级切换 + 机密容器：运营商的活儿

智能路由的另一个隐藏价值是容灾。MoMA 承诺当某个模型出现超时、限流或故障时，平台可自动秒级切换到备选模型。对生产环境来说，这比"模型选得多"更重要——你调 DeepSeek 被限流，平台直接帮你切到 Qwen 同档位模型，业务不中断。

这种 SLA 思维是运营商的强项。

安全侧 MoMA 还推了"机密模型"服务：把模型部署在机密容器里，基于硬件隔离技术（大概率是 TEE 路线）保障计算过程的数据安全，从芯片到应用做全链路机密计算。这条产品线明显是冲着政务、金融数据不出域的硬性合规要求去的，也是互联网厂商最难复制的护城河。

协议层：兼容 MCP 和 A2A，但加了一层企业级增强

值得一提的是，MoMA 在协议层面没有另起炉灶，而是兼容了 Anthropic 的 MCP（Model Context Protocol）和 Google 的 A2A（Agent2Agent）。但中国移动指出原生 MCP 的两个软肋：模型与工具交互缺乏安全约束、工具对模型的可调度性缺少规约。

所以 MoMA 在兼容基础上扩展了统一认证、安全通信和工具可调度性增强，做出了"中国移动特色的 A2A、MCP"。这条思路对企业级落地很关键——开源协议的优雅设计在生产环境往往会撞上权限管理、审计追溯、调用限流这些土工程。

怎么看 MoMA：央企做聚合平台的逻辑

回到一个本质问题：模型聚合这件事，央企和互联网厂商谁更有戏？

互联网厂商的优势是工程迭代快、生态触达广。但 MoMA 走的是另一条路：国产算力底座 + 运营商级 SLA + 合规可信。这三件事捆在一起，瞄准的是 G 端和大型 B 端市场——这些客户对前沿模型半年迭代一次的速度并不敏感，对"数据不出域"和"7×24 不掉线"才敏感。

MoMA 已经在中国移动自家的灵犀智能体 2.0 上跑通，灵犀升级为跨领域、多任务、自规划的通用型智能体，覆盖通信、生活、出行、办公、家庭场景。这是个不小的内部 PoC，至少证明了百万级用户场景下平台是能扛得住的。

对开发者来说，多一个国产可信的模型聚合选项不是坏事。尤其是做政企项目的同学，原本要对接五六家模型 API 做合规适配的活儿，现在理论上可以收敛到一个 MoMA 网关上。

顺带一提，OpenAI Hub 也在做类似的统一接入——一个 Key 调用 GPT、Claude、Gemini、DeepSeek 等主流模型，国内直连、兼容 OpenAI 格式。两者目标客户其实有错位：OpenAI Hub 主打开发者侧的全球主流模型一站式接入，MoMA 则是央企体系内信创合规的聚合底座。开发者完全可以按场景选择。

后面要看什么

MoMA 现在的故事讲得很完整，但有几件事还要等市场检验：

300+ 模型的实际可用性：有多少是真接通了在线 API，有多少是"支持但需走流程"
Token 计价是否真的统一：不同模型上下文窗口、输入输出比、推理强度差异极大，统一 Token 单价的精算逻辑是关键
第三方开发者门槛：目前 MoMA 主要服务移动云客户和政企，对个人开发者和中小企业是否开放、定价如何，官方还没明确
白皮书中提到的 PD²-Matrix 评测体系：能不能开源出来供社区验证，决定了"智能路由"的可信度

模型聚合赛道在 2025 年已经从"有没有"卷到了"好不好用"。MoMA 这一发，把战场从互联网厂商之间，扩展到了运营商和云厂商之间。接下来值得看的，是中国电信和中国联通会不会跟进，以及阿里云、火山引擎等模型托管平台会用什么差异化策略应对。

参考来源

中国移动发布 MoMA 平台：单位 Token 成本压降 30%，接入超 300 款 AI 模型 - IT之家 — IT之家关于 MoMA 平台正式发布的核心报道，包含成本压降、智能路由、机密模型等关键信息