美团万亿参数大模型上线,全程国产算力训练

模型上新

美团发布 LongCat-2.0-Preview,总参数突破万亿,支持 1M 上下文窗口,训练推理全程使用国产算力集群完成,对标 GPT-4 能力水平。

美团万亿参数大模型上线,全程国产算力训练

美团今天开放了新一代基础大模型 LongCat-2.0-Preview 的邀请测试。这个模型总参数规模突破万亿,采用混合专家(MoE)架构,整体能力对标 GPT-4。

更值得关注的是,这是国内首个完全基于国产算力集群训练完成的万亿级参数模型。据透露,美团在训练阶段动用了 5 万到 6 万张国产算力卡,训练和推理全程没有依赖海外芯片。

美团 LongCat-2.0-Preview 模型架构示意图

参数规模和技术架构

LongCat-2.0-Preview 的总参数量超过 1 万亿,但采用了混合专家架构,实际激活参数远小于总参数量。这种设计在保持模型能力的同时,大幅降低了推理成本和延迟。

从技术路线看,美团选择了和 GPT-4、Grok-2 类似的 MoE 架构。这个架构的核心思路是把模型拆分成多个专家网络,每次推理只激活其中一部分专家,而不是调用全部参数。这样做的好处是在保持大参数量带来的知识容量优势的同时,推理速度和成本接近小模型。

具体到 LongCat-2.0,虽然总参数破万亿,但单次推理激活的参数量可能只有几百亿到千亿级别。这个设计让它在实际应用中的响应速度和部署成本都比稠密模型(Dense Model)更有优势。

1M 上下文窗口的实际意义

LongCat-2.0-Preview 支持 1M token 的上下文窗口,这个数字和最近发布的 GPT-5.5 处于同一量级。

1M 上下文意味着什么?按中文字符计算,大约可以处理 150 万到 200 万字的输入内容。这相当于可以一次性读完 3-4 本中等篇幅的小说,或者处理几百页的技术文档、财报、法律合同。

对开发者来说,这个窗口大小带来的最直接好处是可以把更多上下文信息塞进单次请求。比如在做代码审查时,可以把整个代码仓库的核心文件都放进去;在做文档问答时,可以直接上传完整的产品手册而不用分段处理。

但长上下文也不是万能的。窗口越大,模型在中间部分的注意力衰减问题就越明显——也就是所谓的"中间丢失"(Lost in the Middle)现象。美团没有公布 LongCat-2.0 在长上下文场景下的实际表现数据,这部分能力还需要实测验证。

国产算力集群的突破

这次最大的看点不是参数规模,而是训练推理全程使用国产算力完成。

过去几年,国内大模型训练基本依赖英伟达的 A100 或 H100。去年美国收紧出口管制后,H100 和后续的 H200、B100 都进不来了。国内厂商要么用存量的 A100/H800,要么转向国产替代方案。

美团这次用 5-6 万张国产算力卡训练万亿参数模型,说明国产芯片在大规模训练场景下已经能跑通完整流程。虽然美团没有透露具体使用的是哪家的芯片(可能是华为昇腾、海光 DCU 或壁仞 BR100 等),但能支撑这个规模的训练任务,至少证明了几点:

  1. 单卡算力够用:万亿参数模型对单卡的计算能力、显存容量都有很高要求,国产芯片在这些指标上已经接近或达到 A100 水平
  2. 集群互联稳定:5-6 万卡的集群规模,对网络拓扑、通信协议、故障恢复机制都是极大考验。能跑完训练说明互联方案已经成熟
  3. 软件栈完善:训练框架、编译器、驱动程序等软件层面的适配工作量巨大,美团能跑通说明国产芯片的软件生态已经基本可用

这对整个行业是个重要信号。如果国产算力能支撑万亿参数模型训练,那其他厂商也可以走这条路,不用再担心被卡脖子。

Agent 场景的深度优化

美团强调 LongCat-2.0 针对 Agent 应用场景做了深度优化,这个方向很务实。

Agent 是今年大模型应用的主要方向之一。简单说就是让模型不只是回答问题,而是能主动规划任务、调用工具、执行操作。比如让模型帮你订机票,它需要理解需求、查询航班、比较价格、完成支付,整个流程可能涉及十几个步骤和多个 API 调用。

美团提到的几个优化方向都很实际:

代码生成能力:Agent 经常需要生成代码来调用 API 或处理数据。LongCat-2.0 在这方面做了强化,应该是在训练数据中加入了大量代码语料,并针对函数调用、参数解析等场景做了微调。

复杂任务规划:这是 Agent 的核心能力。模型需要把一个复杂目标拆解成可执行的子任务,并处理任务之间的依赖关系。这对模型的推理能力和上下文理解能力要求很高。

企业自动化场景:美团自己就有大量业务流程自动化需求——外卖调度、商家运营、客服处理等。LongCat-2.0 很可能在这些场景的数据上做了专门训练,让模型更懂业务逻辑。

从美团的业务特点看,他们做 Agent 优化是有天然优势的。美团有海量的真实业务数据和场景,可以用来训练和验证模型在实际任务中的表现。这比纯粹在公开数据集上训练要有效得多。

对标 GPT-4 的能力水平

美团说 LongCat-2.0 整体能力对标 GPT-4。这个说法需要具体看测试数据。

GPT-4 发布快三年了,现在已经不是最强的模型。如果对标的是 2023 年 3 月发布的初版 GPT-4,那 LongCat-2.0 的能力水平大概在主流开源模型(如 Llama 3.1 405B、Qwen2.5 72B)和顶级闭源模型(GPT-4o、Claude 3.5 Sonnet)之间。

但"对标"这个词很模糊。是在所有任务上都接近 GPT-4,还是在某些特定场景下达到类似水平?美团没有公布详细的 benchmark 数据,所以现在还不好判断。

从参数规模和架构看,LongCat-2.0 应该能在通用能力上达到 GPT-4 的 70-80% 水平。但在某些垂直领域(特别是美团自己的业务场景),可能会超过 GPT-4。这也是大厂做自研模型的主要动机——不是为了在所有任务上都做到最强,而是在自己的核心场景上做到最优。

国内大模型的新阶段

LongCat-2.0 的发布标志着国内大模型进入了新阶段。

过去一年,国内大模型主要有两个方向:一是做开源模型(如阿里 Qwen、智谱 GLM、百川、MiniMax),二是做垂直场景应用(如科大讯飞的教育、商汤的医疗)。美团这次走的是第三条路:做自己的基础大模型,但不开源,主要服务自己的业务场景。

这个路线和 Meta 做 Llama、Google 做 Gemini 的逻辑不太一样。Meta 开源 Llama 是为了建立生态,Google 做 Gemini 是为了和 OpenAI 竞争。美团做 LongCat 更像是把大模型当作基础设施,用来提升自己业务的效率和体验。

从这个角度看,LongCat-2.0 的成功标准不是在公开 benchmark 上超过 GPT-4,而是能不能在美团的实际业务中产生价值。比如能不能让外卖配送更高效、商家运营更智能、用户体验更好。

这也是为什么美团强调 Agent 能力和企业自动化场景。他们要的不是一个通用聊天机器人,而是一个能深度融入业务流程的智能系统。

开发者能用上吗?

LongCat-2.0-Preview 目前是邀请测试,还没有公开 API。从美团过去的做法看,他们不太可能像 OpenAI 那样把模型做成公共服务。更可能的情况是:

  1. 内部优先:先在美团自己的业务中大规模应用,验证效果
  2. 生态合作:可能会向美团生态内的商家、合作伙伴开放 API
  3. 有限开放:如果效果好,可能会推出企业版 API,但不会像通用大模型那样完全开放

对普通开发者来说,短期内可能用不上 LongCat-2.0。但这个模型的技术路线和训练方式,对行业有示范意义。特别是全程使用国产算力这一点,证明了在当前环境下,国内厂商完全可以自主训练大规模模型。

如果你现在就需要调用大模型 API,OpenAI Hub 已经支持 GPT、Claude、Gemini、DeepSeek 等主流模型,一个 Key 就能调用所有模型,国内直连,兼容 OpenAI 格式。

技术细节的几个疑问

美团公布的信息还比较有限,有几个技术细节值得关注:

训练数据规模:万亿参数模型通常需要几十 TB 到上百 TB 的训练数据。美团用了多少数据?数据来源是什么?有多少是美团自己的业务数据?

训练时长:5-6 万卡训练多久?如果按 A100 的算力估算,训练一个万亿参数模型可能需要几个月时间。国产芯片的训练效率如何?

推理成本:MoE 架构虽然降低了推理成本,但万亿参数模型的部署和运行仍然很贵。美团打算怎么控制成本?

模型蒸馏:会不会基于 LongCat-2.0 蒸馏出更小的模型,用于对延迟和成本敏感的场景?

这些问题的答案会影响 LongCat-2.0 的实际应用范围和商业化前景。希望美团后续能公布更多技术细节。

写在最后

LongCat-2.0-Preview 的发布,最大的意义不是参数规模或能力水平,而是证明了国产算力可以支撑万亿参数模型的完整训练流程。

这对整个行业是个重要里程碑。过去一年,很多人担心算力卡脖子会影响国内大模型发展。现在看来,虽然国产芯片在性能上可能还有差距,但已经能满足大规模训练的基本需求。

接下来的问题是成本和效率。用国产芯片训练大模型,成本是不是比用英伟达芯片高很多?训练时间是不是要长很多?这些问题会影响国产算力的大规模应用。

但至少,路已经走通了。剩下的就是优化和迭代的问题。


参考来源