昆仑万维放出 SkyClaw-v1.0:百万上下文,原生为 Agent 而生

模型上新

昆仑万维今日发布 SkyClaw-v1.0 与轻量版 lite,主打百万 token 上下文和原生 Agent 能力,价格压到 DeepSeek V4 Pro 折扣价以下,开放 2-4 周免费试用。

昆仑万维放出 SkyClaw-v1.0:百万上下文,原生为 Agent 而生

5 月 26 日,昆仑万维旗下天工 AI 正式发布高性能 Agent 模型 SkyClaw-v1.0,同步上线轻量版 SkyClaw-v1.0-lite。模型支持百万 token 上下文,已经在 5 月 22 日悄悄接入了天工 Skywork 平台,今天算是正式对外亮相。

这个发布的时间点挺有意思。Agent 赛道吵了快一年,从 OpenClaw 到 Hermes 再到 Nanobot,框架层卷得很厉害,但模型层一直存在一个尴尬的事实:大家在用的还是 Claude Opus 4.6、DeepSeek V4 Pro 这种通用模型套个工具壳,不是真的为 Agent 场景训出来的。SkyClaw 这次给出的答案是——从训练第一天起,就让模型泡在 Agent 环境里

SkyClaw-v1.0 在天工 Skywork 平台的产品界面

两个模型,一个补天花板,一个守成本底线

这次发布的不是一个模型,而是一对组合拳。

SkyClaw-v1.0 是旗舰版,面向企业级复杂任务:多步骤规划、复杂工具链调用、长上下文多轮交互。官方给出的定位是「需要最高可靠性和执行准确率的场景」,翻译过来就是——要做交付级 Agent 应用的,用这个。

SkyClaw-v1.0-lite 是轻量版,但官方反复强调一句话:Agent 核心能力没打折。换句话说,工具调用、多步执行这些 Agent 必备能力都保留,砍掉的更多是参数规模带来的推理深度。轻量版主打开发者日常使用、产品早期验证、需要反复试错迭代的场景。

这种「主力 + 轻量」的双模型组合,从去年开始几乎成了行业标配——Anthropic 有 Opus/Sonnet/Haiku,OpenAI 有 GPT/mini,DeepSeek 有 Pro/Flash。逻辑很简单:Agent 任务里很多步骤其实是简单工具调用、状态判断,杀鸡用牛刀的成本在生产环境里会被无限放大。一个产品里 lite 跑 80% 的步骤,关键节点切到主力模型,整体成本能砍掉一大截。

跑分位置:踩在第一梯队的门槛上

先看官方给的对标数据:

  • 超越:Minimax 2.7、DeepSeek V4 Flash、Qwen 3.6 35B A3B、Qwen 3.6 27B
  • 逼近:DeepSeek V4 Pro、Claude Opus 4.6、Qwen 3.6 Plus

这两组对比放在一起,模型的位置就比较清楚了——它在中规模开源模型里属于天花板,往上看那一档闭源/超大规模模型,差距已经很小但还没追平。在 OpenClaw 相关任务(这是行业里目前比较公认的 Agent 综合 benchmark)上,能和 Opus 4.6 正面过招,对一个国产 Agent 专精模型来说是个相当能打的位置。

要补一句的是,跑分这种东西看看就行,真实生产场景里 Agent 模型的差距往往体现在「错误恢复」和「多轮迭代稳定性」这种 benchmark 测不出来的细节上。官方文档里也明确写了,建议在 Agent 框架里使用 SkyClaw 而非作为独立 chat 模型,因为它的优势是「持续执行、错误恢复和多轮迭代,而不是单次回答的表面完整度」——这话说得很实在。

SkyClaw-v1.0 性能对比图,与主流开闭源模型在 Agent benchmark 上的得分

训练方法:mid-training 阶段就开始「特训」

技术上 SkyClaw 走的路线值得说几句。

常规做法是先训一个通用基础模型,然后通过 SFT 和 RLHF 让它学会调用工具。这种「通用 + 后天补课」的路径在简单 Agent 任务上没问题,但一旦任务复杂度上去——比如需要十几步工具调用、跨文件编辑、错误后自动重试——就容易掉链子。原因也好理解,模型本质上是按「生成下一个 token」的目标训出来的,多步规划和工具调用的稳定性是被强行塞进去的能力。

SkyClaw 的做法是把 Agent 任务的训练前置到 mid-training 阶段。具体来说:

  1. mid-train 阶段注入大量复杂 Agent 任务轨迹,让模型从底层就适应「调用工具」这件事
  2. SFT 阶段用高质量合成 Agent 任务数据进一步强化
  3. RL 阶段做端到端强化学习,针对 OpenClaw 任务做专项优化

更关键的是兼容性铺得很广。SkyClaw 在训练阶段就把 OpenClaw、Hermes、Nanobot、Claude Code、Codex 这些主流 Agent 框架都覆盖到了,相当于提前做了一遍「大规模框架适配」。这个细节对开发者很友好——很多专精 Agent 模型只在自家框架上跑得好,换个环境就拉胯,SkyClaw 起码在主流环境里都做了对齐。

百万 token 上下文也是这次的亮点之一。Agent 工作流跟普通 chat 不一样,几次工具调用的 trace 加上文件内容、错误日志、规划状态,上下文很容易就堆到几十万 token。SkyClaw 直接拉到百万级,跟前沿玩家站在了同一条线上。

价格:把 Agent 能力的门槛打下来

定价是这次发布里最有杀伤力的部分。

模型 输入价格 输出价格
SkyClaw-v1.0 0.5 元 / 百万 tokens 4 元 / 百万 tokens
SkyClaw-v1.0-lite 0.3 元 / 百万 tokens 2 元 / 百万 tokens

这个价格比 Minimax 2.7 和 Qwen 3.6 同级别模型便宜了一半以上,甚至比打折后的 DeepSeek V4 Pro 还便宜。Agent 应用最怕的就是 token 消耗——一个稍微复杂点的 Agent 任务,几十万 token 上下文跑下来,账单很容易爆炸。SkyClaw 这个定价区间,基本意味着中小团队也能放开手做 Agent 产品的成本结构验证。

再叠加官方开放的 2-4 周免费试用,对于现在还在选型阶段的团队来说,机会成本几乎为零。

实际能干什么:从桌宠到金融终端

光说参数没意思,看几个真实跑出来的东西。

金融终端:顶部滚全球指数、左边频道导航、中间新闻流带来源和关联股票、右边自选股带迷你 K 线图,连突发新闻弹窗都做了。这种多模块联动界面,传统前端团队怎么也得折腾几天,SkyClaw 一次性把代码全写完,开发者接上真实数据就能跑。

电子桌宠:从需求到代码到打包方案,全程自己搞定。SVG 渐变绘制的小猫,番茄钟支持 25/45/60 分钟三档,工作模式切换、健康提醒模块全都有。更值得说的是,模型做完会主动建议你接 Electron 打包成桌面应用,甚至弹出 IM 连接面板,支持飞书、Slack、Discord、Telegram 等七种聊天工具直连。

AI 周报系统:这个更硬核,给的是一整套产品原型——用 FastAPI 搭后端,从 RSS、GitHub、HuggingFace、网页四个渠道抓数据,中间清洗分类做趋势分析,自动生成周报,SQLite 存储。最后还会主动提示用户「要不要把这个设置成定时任务,每周一早晨自动跑」。

这两个例子背后透露出来的信息,其实比单点能力更重要:SkyClaw 已经不是那种需要你一步步喂指令的模型了。它会主动推荐工作流的下一步,会建议把生成结果沉淀成可复用的 Skill。这种「主动性」是 Agent 模型和 Chat 模型在使用体感上最大的分水岭。

怎么用:两条接入路径

开发者上手 SkyClaw 有两个口子。

第一条是天工 Skywork 平台(tiangong.cn)。SkyClaw-v1.0 已经在 5 月 22 日完成接入,浏览器打开就能用,不需要配 Agent 环境。这条路适合快速验证、做 demo、测能力边界。

第二条是 API 接入,目前免费阶段。官方走的是 apifree.ai,OpenAI 兼容接口,支持流式输出、工具调用、多轮对话。对已经在用 OpenAI SDK 的开发者来说,理论上换个 baseURL 和 model 名就能跑。

值得一提的是,OpenAI Hub 也在快速跟进国产 Agent 模型的接入,开发者如果已经在用一个 Key 调 GPT、Claude、Gemini、DeepSeek 这些主流模型,后续可以在同一个聚合层里直接切换 SkyClaw,省去单独申请 Key 和管理多套配额的麻烦。这种聚合方式对做模型选型对比、A/B 测试的团队特别实用——尤其是在 Agent 这种对模型切换成本敏感的场景。

一点判断

SkyClaw 这次发布,让人印象比较深的不是单点能力,而是它选择的路径。

过去想要顶级 Agent 能力,默认要接受「大参数 + 高成本 + 慢推理」这套组合。SkyClaw 换了个方向——不是把参数往上堆,而是把训练流程做成 Agent 专项特训,在更小的参数量上把能力顶上去。这条路如果走通了,意味着 Agent 能力的下沉速度会比想象中快得多。

再往大了看,昆仑万维这次明显不只是想发个模型。从 3 月份在 GitHub 和 Clawhub 铺的首批 6 个官方 Skill(PPT、文档、表格、设计、搜索、音乐),到 SkyClaw 主动建议用户沉淀工作流,再到天工 Skywork 平台同时支持 Claude、GPT 等第三方模型——这是在搭一整套 Agent 工作生态。单个模型再强,如果没有平台承接、没有 Skill 沉淀、没有工作流串联,能力就是一次性的。

当然也有需要观察的地方。免费试用结束后真实计费下的稳定性、跨框架场景里的实际表现差异、企业级长任务的可靠性数据——这些都得在生产环境里跑一段时间才能看出来。benchmark 数字漂亮和真实任务好用之间,往往隔着不少坑。

但起码这一次,国产 Agent 模型在「能用、用得起、好接入」这三个维度上同时拿出了一个像样的答卷。这在 Agent 赛道里,已经是个不小的进步。

参考来源