昆仑万维放出 SkyClaw-v1.0:百万上下文,原生为 Agent 而生
5 月 26 日,昆仑万维旗下天工 AI 正式发布高性能 Agent 模型 SkyClaw-v1.0,同步上线轻量版 SkyClaw-v1.0-lite。模型支持百万 token 上下文,已经在 5 月 22 日悄悄接入了天工 Skywork 平台,今天算是正式对外亮相。
这个发布的时间点挺有意思。Agent 赛道吵了快一年,从 OpenClaw 到 Hermes 再到 Nanobot,框架层卷得很厉害,但模型层一直存在一个尴尬的事实:大家在用的还是 Claude Opus 4.6、DeepSeek V4 Pro 这种通用模型套个工具壳,不是真的为 Agent 场景训出来的。SkyClaw 这次给出的答案是——从训练第一天起,就让模型泡在 Agent 环境里。

两个模型,一个补天花板,一个守成本底线
这次发布的不是一个模型,而是一对组合拳。
SkyClaw-v1.0 是旗舰版,面向企业级复杂任务:多步骤规划、复杂工具链调用、长上下文多轮交互。官方给出的定位是「需要最高可靠性和执行准确率的场景」,翻译过来就是——要做交付级 Agent 应用的,用这个。
SkyClaw-v1.0-lite 是轻量版,但官方反复强调一句话:Agent 核心能力没打折。换句话说,工具调用、多步执行这些 Agent 必备能力都保留,砍掉的更多是参数规模带来的推理深度。轻量版主打开发者日常使用、产品早期验证、需要反复试错迭代的场景。
这种「主力 + 轻量」的双模型组合,从去年开始几乎成了行业标配——Anthropic 有 Opus/Sonnet/Haiku,OpenAI 有 GPT/mini,DeepSeek 有 Pro/Flash。逻辑很简单:Agent 任务里很多步骤其实是简单工具调用、状态判断,杀鸡用牛刀的成本在生产环境里会被无限放大。一个产品里 lite 跑 80% 的步骤,关键节点切到主力模型,整体成本能砍掉一大截。
跑分位置:踩在第一梯队的门槛上
先看官方给的对标数据:
- 超越:Minimax 2.7、DeepSeek V4 Flash、Qwen 3.6 35B A3B、Qwen 3.6 27B
- 逼近:DeepSeek V4 Pro、Claude Opus 4.6、Qwen 3.6 Plus
这两组对比放在一起,模型的位置就比较清楚了——它在中规模开源模型里属于天花板,往上看那一档闭源/超大规模模型,差距已经很小但还没追平。在 OpenClaw 相关任务(这是行业里目前比较公认的 Agent 综合 benchmark)上,能和 Opus 4.6 正面过招,对一个国产 Agent 专精模型来说是个相当能打的位置。
要补一句的是,跑分这种东西看看就行,真实生产场景里 Agent 模型的差距往往体现在「错误恢复」和「多轮迭代稳定性」这种 benchmark 测不出来的细节上。官方文档里也明确写了,建议在 Agent 框架里使用 SkyClaw 而非作为独立 chat 模型,因为它的优势是「持续执行、错误恢复和多轮迭代,而不是单次回答的表面完整度」——这话说得很实在。

训练方法:mid-training 阶段就开始「特训」
技术上 SkyClaw 走的路线值得说几句。
常规做法是先训一个通用基础模型,然后通过 SFT 和 RLHF 让它学会调用工具。这种「通用 + 后天补课」的路径在简单 Agent 任务上没问题,但一旦任务复杂度上去——比如需要十几步工具调用、跨文件编辑、错误后自动重试——就容易掉链子。原因也好理解,模型本质上是按「生成下一个 token」的目标训出来的,多步规划和工具调用的稳定性是被强行塞进去的能力。
SkyClaw 的做法是把 Agent 任务的训练前置到 mid-training 阶段。具体来说:
- mid-train 阶段注入大量复杂 Agent 任务轨迹,让模型从底层就适应「调用工具」这件事
- SFT 阶段用高质量合成 Agent 任务数据进一步强化
- RL 阶段做端到端强化学习,针对 OpenClaw 任务做专项优化
更关键的是兼容性铺得很广。SkyClaw 在训练阶段就把 OpenClaw、Hermes、Nanobot、Claude Code、Codex 这些主流 Agent 框架都覆盖到了,相当于提前做了一遍「大规模框架适配」。这个细节对开发者很友好——很多专精 Agent 模型只在自家框架上跑得好,换个环境就拉胯,SkyClaw 起码在主流环境里都做了对齐。
百万 token 上下文也是这次的亮点之一。Agent 工作流跟普通 chat 不一样,几次工具调用的 trace 加上文件内容、错误日志、规划状态,上下文很容易就堆到几十万 token。SkyClaw 直接拉到百万级,跟前沿玩家站在了同一条线上。
价格:把 Agent 能力的门槛打下来
定价是这次发布里最有杀伤力的部分。
| 模型 | 输入价格 | 输出价格 |
|---|---|---|
| SkyClaw-v1.0 | 0.5 元 / 百万 tokens | 4 元 / 百万 tokens |
| SkyClaw-v1.0-lite | 0.3 元 / 百万 tokens | 2 元 / 百万 tokens |
这个价格比 Minimax 2.7 和 Qwen 3.6 同级别模型便宜了一半以上,甚至比打折后的 DeepSeek V4 Pro 还便宜。Agent 应用最怕的就是 token 消耗——一个稍微复杂点的 Agent 任务,几十万 token 上下文跑下来,账单很容易爆炸。SkyClaw 这个定价区间,基本意味着中小团队也能放开手做 Agent 产品的成本结构验证。
再叠加官方开放的 2-4 周免费试用,对于现在还在选型阶段的团队来说,机会成本几乎为零。
实际能干什么:从桌宠到金融终端
光说参数没意思,看几个真实跑出来的东西。
金融终端:顶部滚全球指数、左边频道导航、中间新闻流带来源和关联股票、右边自选股带迷你 K 线图,连突发新闻弹窗都做了。这种多模块联动界面,传统前端团队怎么也得折腾几天,SkyClaw 一次性把代码全写完,开发者接上真实数据就能跑。
电子桌宠:从需求到代码到打包方案,全程自己搞定。SVG 渐变绘制的小猫,番茄钟支持 25/45/60 分钟三档,工作模式切换、健康提醒模块全都有。更值得说的是,模型做完会主动建议你接 Electron 打包成桌面应用,甚至弹出 IM 连接面板,支持飞书、Slack、Discord、Telegram 等七种聊天工具直连。
AI 周报系统:这个更硬核,给的是一整套产品原型——用 FastAPI 搭后端,从 RSS、GitHub、HuggingFace、网页四个渠道抓数据,中间清洗分类做趋势分析,自动生成周报,SQLite 存储。最后还会主动提示用户「要不要把这个设置成定时任务,每周一早晨自动跑」。
这两个例子背后透露出来的信息,其实比单点能力更重要:SkyClaw 已经不是那种需要你一步步喂指令的模型了。它会主动推荐工作流的下一步,会建议把生成结果沉淀成可复用的 Skill。这种「主动性」是 Agent 模型和 Chat 模型在使用体感上最大的分水岭。
怎么用:两条接入路径
开发者上手 SkyClaw 有两个口子。
第一条是天工 Skywork 平台(tiangong.cn)。SkyClaw-v1.0 已经在 5 月 22 日完成接入,浏览器打开就能用,不需要配 Agent 环境。这条路适合快速验证、做 demo、测能力边界。
第二条是 API 接入,目前免费阶段。官方走的是 apifree.ai,OpenAI 兼容接口,支持流式输出、工具调用、多轮对话。对已经在用 OpenAI SDK 的开发者来说,理论上换个 baseURL 和 model 名就能跑。
值得一提的是,OpenAI Hub 也在快速跟进国产 Agent 模型的接入,开发者如果已经在用一个 Key 调 GPT、Claude、Gemini、DeepSeek 这些主流模型,后续可以在同一个聚合层里直接切换 SkyClaw,省去单独申请 Key 和管理多套配额的麻烦。这种聚合方式对做模型选型对比、A/B 测试的团队特别实用——尤其是在 Agent 这种对模型切换成本敏感的场景。
一点判断
SkyClaw 这次发布,让人印象比较深的不是单点能力,而是它选择的路径。
过去想要顶级 Agent 能力,默认要接受「大参数 + 高成本 + 慢推理」这套组合。SkyClaw 换了个方向——不是把参数往上堆,而是把训练流程做成 Agent 专项特训,在更小的参数量上把能力顶上去。这条路如果走通了,意味着 Agent 能力的下沉速度会比想象中快得多。
再往大了看,昆仑万维这次明显不只是想发个模型。从 3 月份在 GitHub 和 Clawhub 铺的首批 6 个官方 Skill(PPT、文档、表格、设计、搜索、音乐),到 SkyClaw 主动建议用户沉淀工作流,再到天工 Skywork 平台同时支持 Claude、GPT 等第三方模型——这是在搭一整套 Agent 工作生态。单个模型再强,如果没有平台承接、没有 Skill 沉淀、没有工作流串联,能力就是一次性的。
当然也有需要观察的地方。免费试用结束后真实计费下的稳定性、跨框架场景里的实际表现差异、企业级长任务的可靠性数据——这些都得在生产环境里跑一段时间才能看出来。benchmark 数字漂亮和真实任务好用之间,往往隔着不少坑。
但起码这一次,国产 Agent 模型在「能用、用得起、好接入」这三个维度上同时拿出了一个像样的答卷。这在 Agent 赛道里,已经是个不小的进步。
参考来源
- 昆仑万维天工 AI 发布 SkyClaw-v1.0:面向真实工作流的百万上下文 Agent 模型 - IT之家:IT之家关于 SkyClaw-v1.0 发布的官方报道,含技术细节和接入信息
- 昆仑万维正式发布高性能 Agent 模型 SkyClaw-v1.0 - linux.do:开发者社区讨论帖,包含 API 文档链接和实测反馈