今天火山引擎把 Agent Plan 正式推上线了。40 元起步,订阅制,一套东西打包:Doubao-Seed、Seedance、Seedream 这些自研模型,加上 GLM-5.1、Kimi-K2.6 这些三方大模型,再加联网搜索、embedding API 这些 Harness 工具,全都塞进去。官方话术叫“业界首个 Agent 套餐包”,潜台词很清楚——Coding Plan 时代结束了,接下来卖的是 Agent 全套燃料。
这个产品的出现时机挺值得琢磨。去年到今年上半年,各家云厂商的主流玩法还是卖 token 或者卖编程助手订阅,Anthropic 的 Claude Pro Plan、Cursor 的 Pro 订阅都是这个路数。但 Agent 场景和纯 Coding 场景的消耗模型完全不一样:写代码主要烧 LLM 的 token,而一个能干活的 Agent 要查网页、要调图像模型生成素材、要用向量库做长期记忆、偶尔还得生个视频片段。按 token 计费这套在 Agent 场景下既不好算账,也不好调度。火山引擎这次干脆把账算到一起,统一发“燃料值”,让用户别再操心哪个模型该用哪个 API Key。

不只是降价,是重新定义订阅包的边界
看 Agent Plan 的模型清单,字节是真把家底亮了一遍。
自研这一侧,Doubao-Seed 管文本和代码,Seedance 2.0 管视频生成,Seedream 5.0 lite 管图像,embedding 模型管记忆检索——这是一个完整的多模态矩阵。三方这一侧,GLM-5.1 和 Kimi-K2.6 都是国内最近风头正劲的两个模型,智谱的 GLM-5.1 在长上下文和工具调用上表现一直稳,月之暗面的 Kimi-K2.6 则在代码和推理类任务上有口碑。火山把这两家也一起装进来,基本覆盖了国内开发者会日常使用的主流非字节系模型。
这里有个细节值得拎出来说:Agent Plan 带了个 Auto 模式,根据任务场景自动调度模型,官方实测说长尾 Agent 任务上 Auto 比固定指定某个模型表现更好。这个逻辑其实和 OpenRouter 上的 auto 路由、以及 GPT-5 那套内部路由机制是一个思路——让用户别再纠结“这个任务该用 Claude 还是 GLM”,平台帮你选。对于写 Agent 的开发者来说,这个解法是对的,因为 Agent 跑起来的时候根本没人有精力做 A/B。
Harness 层是这次产品设计里更有意思的部分。火山直接把三样东西打包送:
- 联网搜索:和豆包同源的搜索服务,赠送额度,实时、带权威来源
- Doubao-embedding-vision:多模态向量化模型,给 Agent 当长期记忆
- 私域知识库搜索、图像处理、MCP 部署等一系列工具
换句话说,一个 Agent 要跑起来需要的零件,Agent Plan 在一个订阅里基本配齐了。以前你要自己去申请 Bing Search API 或者 Tavily,embedding 要单独买 OpenAI 的 text-embedding-3,图像要调 DALL·E 或者豆包图像单独的接口——现在这些全部折进一张订单里。
兼容 Claude Code、Cursor、Cline:一个 Key 插进现有工作流
这次 Agent Plan 做得比较聪明的地方,是没有去强推自己的 IDE 或者 Agent 平台。反而是主动去兼容现有的热门工具:Claude Code、Cursor、Cline、Kilo Code、Roo Code、OpenCode 这些编程工具都在兼容列表里,Agent 侧则支持 OpenClaw、Hermes Agent、TRAE 这些框架。
这个策略和一年前国内厂商动不动就要“做自己的 Copilot”的打法截然不同。当 Claude Code 已经成为不少开发者的默认工具时,继续做平行产品的意义已经不大,不如把它作为分发入口。火山这次的定位很明确——我不抢终端,我做底下的燃料层。用户在 Claude Code 里敲 /model,能选到 GLM-5.1 和 Kimi-K2.6;Agent 在执行任务中需要生个视频,自动就调 Seedance 2.0;查实时信息时,联网搜索 Skill 自动触发。整个链路对使用者来说是透明的。
这种“做底座、不抢前端”的打法有个显而易见的好处:开发者迁移成本为零。已经在用 Cursor 的人不用换 IDE,只要把后端指向火山的接入点即可。而对火山来说,它用一张订阅卡牢牢抓住了这些外部工具的模型调用流量。
套餐分档、定价逻辑和“库存限量”
定价结构上,Agent Plan 按使用强度分档,最低 40 元/月起步。官方文档里把模型分成了极速、标准、进阶、生图生视频等几类,不同类型对应不同的抵扣系数——跟游戏里的“体力消耗”是一个逻辑。重度任务(比如 Seedance 2.0 生视频)消耗大,文本调用消耗小,用一个统一的“燃料值”做抽象。
有个容易被忽略的细节:火山在产品页明确写了**“每天 00:00 限量释放库存,售完即止”**。这句话其实挺关键的。一方面说明他们对算力调度有比较明确的约束,不会无限开闸;另一方面也意味着 Agent Plan 不是传统 SaaS 那种“随买随用”的模式,更像是有节奏的算力分发。
对比一下 Claude Pro Plan,官方说 Agent Plan 的基础额度是“数倍于 Claude Pro Plan”,重度开发档位(对应套餐里所谓的 12.5× Small 用量)基本能覆盖一个全职工程师的日常 Agent 使用。考虑到 Claude Pro 现在一个月 20 美元、折合人民币 140 多元,而 Agent Plan 起步价 40 元还带了图像、视频、搜索、embedding 一整套,单论性价比确实没什么可挑的。
这件事对国内开发者意味着什么
站在开发者视角看,Agent Plan 解决的核心问题其实是聚合。国内做 Agent 的人现在日常的痛点不是没有好模型,而是——
- 好模型分散在不同厂商,Key 管理麻烦
- Agent 场景既要 LLM 又要多模态又要工具调用,单一厂商的能力总有短板
- 按 token 计费在 Agent 循环调用场景下成本不可控
- 联网搜索、向量化这些 Harness 组件单独买又贵又烦
Agent Plan 等于用一个打包方案把这几件事一次性摆平。从产品设计上看,它确实是目前国内最成体系的 Agent 订阅方案,没有之一。智谱、阿里、Kimi 目前各自的订阅产品要么聚焦在自家模型,要么还停留在 Coding 助手阶段。火山这次明显想抢先立住“Agent 套餐”这个品类。
当然,这个产品也不是没短板。限量库存意味着高峰期可能买不到;Auto 模式好不好用要看实测,调度策略不透明的话排查问题会头疼;三方模型版本更新是否能实时跟进,目前也没看到 SLA 说明。另外,对于已经接入多家 API 聚合服务的重度用户来说,Agent Plan 的“全家桶”反而可能有点包袱——你可能只想用 GLM-5.1 的 API,却被要求订一个带视频模型的套餐。
值得一提的是,如果你本来就习惯用聚合型 API 服务来统一管理不同模型的 Key,像 OpenAI Hub 这类平台也已经支持 GLM、Kimi、DeepSeek 以及国外的 GPT、Claude、Gemini 等主流模型,一个 Key 国内直连、OpenAI 格式兼容。对偏好按量付费、不想被套餐绑定的开发者来说,这是另一种路线。两种模式各有适合的人群:套餐制省心、按量制灵活,取决于你的使用强度和偏好。
一个更大的判断:Agent 计费正在脱离 token
拉远一点看,Agent Plan 的发布其实代表了一个行业信号:Agent 场景的商业化正在脱离按 token 计费的旧范式。
过去两年大家都在卷 token 单价,1K tokens 从几毛钱降到几厘钱。但 Agent 跑起来的计价逻辑早就不是“输入多少 token、输出多少 token”能概括的——它包含了工具调用次数、向量检索量、图像生成张数、视频秒数、搜索请求数……这些维度混在一起,继续按 token 报账既不好算也不好卖。
OpenAI 今年开始推的 Agent Builder、Anthropic 在 Claude 产品里集成的 Tool Use 计费,以及现在火山的 Agent Plan,走的是同一个方向——把复杂的异构消耗抽象成一个“燃料值”或“点数”,让最终用户按需求强度买包,而不是按技术细节算账。这是 Agent 时代迟早会发生的一次计费层重构,火山这次算是在国内走得比较靠前的一个。
至于 Agent Plan 能不能跑出来,还要看接下来几个月的真实用户反馈——尤其是 Auto 模式的调度效果、限量库存机制下的供给稳定性,以及三方模型更新的跟进速度。但从产品形态上,火山这一步确实踩在了节奏上。
参考来源
- IT之家:火山引擎 Agent Plan 发布,业界首个 Agent 套餐包,每月 40 元起 —— Agent Plan 首发报道,含模型清单与套餐结构