阿里云今天(5月29日)把百炼的核心能力打包成了一个命令行工具,扔到了 GitHub 上。一行命令,Agent 就能调到平台上 150 多款模型、十多款应用,再加上知识库、记忆、联网搜索这一整套配套设施。
这件事放在 2026 年的当口看,节奏其实挺顺的。过去半年,Agent 这边的事实标准已经从"对话框 + 插件"转向了"终端 + CLI"——Claude Code、Cursor 的 Agent 模式、Qoder、还有一票 Open 系的 Agent 框架,几乎全在围着命令行做文章。模型厂商如果还只提供 HTTP API 和 SDK,就要被夹在中间:上游 Agent 框架要适配你,下游开发者要自己把模型能力翻译成工具调用。百炼 CLI 干的事,就是把这层翻译省掉。

CLI 化的意义:不是再做一个 SDK
先把误会澄清掉。百炼 CLI 不是把原来 Python/Java SDK 换个皮变成命令行。它是专为 Agent 设计的——也就是说,它的输出是给另一个 AI 看的,不是给人看的。
这是两个完全不同的设计目标。给人用的 CLI,重点是交互友好、彩色输出、进度条;给 Agent 用的 CLI,重点是结构化输出、参数语义明确、错误码可解析、能被 LLM 一次性理解并正确调用。官方明确说了支持"结构化输出,便于 Agent 工具调用和自动化编排",这句话翻译过来就是:每个子命令的入参出参都按照 function calling 的规范来组织,Claude Code 这类 Agent 能直接把它当成工具集挂载进去。
对照一下原生支持的几个框架名单——Claude Code、Qoder、OpenClaw、Hermes Agent——基本覆盖了当前主流的编码 Agent 和通用 Agent 两条路线。Claude Code 是 Anthropic 自家的终端 Agent,Qoder 是阿里前段时间推的 IDE Agent,后两个是开源社区的代表。这个适配清单意味着,用户不用自己写 MCP server 或者自定义工具描述,装完 CLI 就能在这些 Agent 里直接用。
能力清单:把"百炼"打包成工具集
按官方披露的能力盘点,百炼 CLI 现在可以让 Agent 干这些事:
- 多模态模型调用:文本、图像、视频、语音、视觉理解,覆盖 150+ 模型
- 应用与工作流调用:直接调用在百炼控制台搭好的应用和 Workflow
- 知识库检索:RAG 链路开箱即用
- 记忆库管理与用户画像:长程记忆、个性化
- 联网搜索:让 Agent 获取实时信息
- 本地文件上传与多模态文件处理:把本地图片、文档、音视频喂给模型
- 结构化输出:可被上层 Agent 编排消费
这个清单的潜台词是:百炼把自己平台上能用的东西,几乎全部 CLI 化了。过去你想让一个 Agent 同时具备"读本地图片 → 用 Qwen-VL 看懂内容 → 调用图像编辑模型生成营销图 → 查知识库确认品牌指南 → 写文案"这一整串能力,得自己写好几层 glue code。现在 Agent 可以自己分步骤调命令,glue code 由 LLM 在运行时即兴生成。
官方举的几个场景也很说明问题:让 Agent 联网搜最新信息、读本地图编辑成营销素材、结合知识库和记忆构建企业级助手。这三个例子分别覆盖了"实时性、多模态、上下文"三个 Agent 最常被卡住的点。
为什么是现在?
这事得放在更大的背景里看。
阿里这一波动作不是孤立的。再往前推几个月,他们陆续推过 Kilo CLI——专门给 Qwen3-Max、Qwen3-Coder 系列做的编码 CLI;再之前 Qwen3.7-Max 主打"面向智能体时代",强调长周期自主执行和 MCP 集成。一条线索很清楚:阿里在把百炼从一个 MaaS 平台,往"Agent 运行时"这个方向重新定位。
百炼 CLI 是这条线上最关键的一块拼图。Kilo CLI 解决的是"在 Agent 里用 Qwen 写代码",覆盖编码场景;百炼 CLI 解决的是"在 Agent 里用阿里云全套 AI 能力做事",覆盖通用场景。两者其实是互补的——前者偏向 IDE 内的代码助手,后者偏向通用 Agent 工作流。
更现实一点说,国内大模型平台过去一年都在卷"应用层",做应用市场、做工作流编辑器、做记忆库、做知识库。但这些东西要真正被开发者用起来,最大的阻力其实是"接入成本"——每个能力都是一套 API,每个 API 都得读文档、写 client、调参数。Agent 时代,这套打法行不通了,因为 Agent 不会自己读文档。所以把所有能力 CLI 化、并且专门给 Agent 优化输出格式,本质上是给 Agent 做产品适配。
跟 MCP 比,怎么看?
开发者看到这个新闻,第一个反应大概率是:这跟 MCP(Model Context Protocol)有什么关系?要不要二选一?
两个东西的定位其实不一样。MCP 是协议,定义的是 Agent 和工具之间怎么通信;百炼 CLI 是工具集,是阿里云能力的具体封装。理论上,百炼 CLI 完全可以被包装成一个 MCP server,让任何支持 MCP 的 Agent 调用。
但走 CLI 这条路有几个现实优势:
- 零配置启动:MCP server 需要起进程、配 schema、管生命周期,CLI 装完直接能用
- 跨 Agent 框架兼容性更好:不是所有 Agent 都支持 MCP,但几乎所有 Agent 都支持"调用 shell 命令"
- Debug 友好:人类直接在终端里跑一遍命令,能立刻看出哪里出了问题,MCP 的调试链路要长得多
所以可以预期,后面这两条路线大概率是并行的:CLI 作为最低门槛的入口,MCP 作为更深度集成的方式。
一些值得关注的细节
几个翻文档时注意到的点:
- GitHub 仓库地址是 modelstudioai/cli,不在 alibaba 主组织下面,估计是百炼海外品牌 ModelStudio 的独立运营。这种命名也说明这个东西不只是给国内开发者用的,海外站点(新加坡、弗吉尼亚)也都同步支持。
- 结合 Coding Plan 看,百炼前段时间已经推了类似 Claude Code Max Plan 的订阅制套餐,CLI 化之后这套订阅的价值会被放大——一次订阅,所有 Agent 框架都能用。
- Qwen3.7-Max 刚发布,定位就是"面向智能体时代"。模型层、CLI 层、订阅层这三块拼起来,阿里这次的产品节奏明显是有规划的。
给开发者的建议
如果你正在做基于 Claude Code 或者 Qoder 的 Agent 应用,百炼 CLI 值得花半小时试一下,特别是涉及多模态(图像编辑、视频生成、语音合成)的场景——这些能力自己接 API 真的烦,CLI 化之后省心很多。
如果你在做企业内部的智能助手,结合"知识库 + 记忆 + 联网搜索"这三件套,百炼 CLI 提供了一个比较完整的现成方案,至少 PoC 阶段不用自己拼基础设施。
如果你做的是纯文本对话类应用,那其实直接用 OpenAI 兼容接口就够了,CLI 的优势体现不出来。顺带一提,OpenAI Hub 也支持 Qwen 系列模型的直接调用,OpenAI 格式兼容,国内直连,做对比测试或者多模型路由的时候挺方便。
这次百炼 CLI 开源是个标志性事件,但还需要时间观察的几件事:一是 Agent 框架适配的稳定性,特别是工具描述的语义清晰度;二是结构化输出对复杂任务的支持深度;三是开源社区会不会跟进,贡献更多上层封装。
命令行回归是这两年最有意思的产品趋势之一。模型厂商终于意识到,给 Agent 做产品和给人做产品是两件事——前者要的是"清晰、可调用、可组合",后者要的是"好看、好用、好理解"。百炼 CLI 这次明显是奔着前者去的。
参考链接
- modelstudioai/cli - GitHub 仓库:百炼 CLI 开源代码与文档
- 阿里云开源百炼 CLI,Agent 可调用全套模型和应用能力 - IT之家:IT之家发布的官方消息原文