OpenClaw 重磅更新:Agent 长出「眼睛和手」
OpenClaw 刚刚推送了一个低调但重磅的版本更新。这次不是修修补补,而是让 Agent 长出了「眼睛和手」——能看到屏幕内容,也能操作鼠标键盘。配合新增的 Dreaming 机制,Agent 开始具备离线思考能力。
这意味着什么?AI Agent 正在从「对话工具」演进为「系统级智能体」。它不再只是回答问题,而是能主动执行任务、持续工作、自我优化。
视觉交互:Agent 终于能「看懂」界面了
过去 Agent 操作电脑的方式很原始:要么通过 API 调用,要么靠命令行。遇到没有 API 的软件就抓瞎,遇到复杂的 GUI 界面更是束手无策。
这次更新直接给 Agent 装上了视觉能力。它能截取屏幕内容,理解界面布局,识别按钮、输入框、菜单的位置和功能。然后通过模拟鼠标点击、键盘输入来完成操作。

这个能力的价值在哪?举个例子:
- 传统方式:你想让 Agent 帮你整理邮件,它需要邮件服务商提供 API,还得处理各种权限和认证问题
- 视觉交互方式:Agent 直接打开你的邮件客户端,像人一样浏览、分类、归档邮件
从技术实现看,这套方案结合了多模态模型的视觉理解能力和 RPA(机器人流程自动化)的操作能力。但关键突破在于:Agent 不需要预先知道界面结构,它能实时理解和适应不同的 UI 设计。
这让 Agent 的适用范围一下子扩大了几个数量级。理论上,只要是人能操作的软件,Agent 都能学会。
Dreaming 机制:Agent 开始「离线思考」
OpenClaw 这次更新的另一个核心是 Dreaming 机制。这个名字起得很形象——Agent 在不工作的时候也在「做梦」,整理记忆、优化策略。
记忆从「存储」变成「认知」
以前 Agent 的记忆机制很粗暴:把对话历史、操作记录全部存下来,需要的时候再检索。问题是:
- 上下文混乱:记忆越多越难找到有用信息,经常答非所问
- 不会成长:同样的错误反复犯,没有学习能力
- 无法泛化:在 A 场景学到的经验,在 B 场景完全用不上
Dreaming 机制做的是把原始记忆转化为结构化认知。具体来说:
原始记忆:
用户说:帮我订明天去上海的机票
Agent 操作:打开携程 → 搜索航班 → 选择时间 → 填写信息 → 支付
结果:订票成功
结构化认知:
任务模式:订机票
关键步骤:
1. 确认出发地、目的地、时间
2. 比较价格和时间
3. 确认乘客信息
4. 完成支付
注意事项:
- 需要提前确认证件信息
- 支付前再次确认时间
- 保存订单号
Agent 会在空闲时间自动运行 Dreaming 流程,把零散的操作记录提炼成可复用的任务模板。下次遇到类似任务,直接调用模板,效率和准确率都大幅提升。
从「执行器」到「操作系统」
Dreaming 机制的本质是给 Agent 加了一个「运行时」(Runtime)。这个概念很重要,它标志着 Agent 架构正在向操作系统形态演进。
传统 Agent 是无状态的:
- 接收指令 → 执行 → 返回结果 → 结束
- 每次都是全新开始,没有持续性
新架构下的 Agent 有了持续运行的能力:
- 前台任务:响应用户指令,执行具体操作
- 后台任务:整理记忆、优化策略、预加载资源
- 调度机制:根据优先级分配计算资源
这就像从单线程程序进化到多任务操作系统。Agent 不再是「用完即走」的工具,而是一个持续运行、不断进化的系统。
技术实现:Skills + API 的双轮驱动
OpenClaw 的能力体系围绕两个核心展开:Skills 和 API。
API:连接外部世界
API 解决的是「能做什么」的问题。OpenClaw 通过 MCP(Model Context Protocol)协议,可以调用各种外部服务:
- 文件系统:读写本地文件
- 网络服务:调用第三方 API
- 数据库:查询和更新数据
- 消息平台:接入飞书、企微、QQ 等
MCP 的设计很聪明,它不是简单的 API 聚合,而是提供了统一的上下文管理机制。Agent 可以在不同服务之间传递状态,实现跨平台的工作流。
Skills:定义执行逻辑
Skills 解决的是「怎么做」的问题。一个 Skill 本质上是一套可复用的任务模板,包含:
- SKILLS.md:任务说明,告诉 Agent「你是谁、要做什么」
- scripts:可执行脚本,提供具体工具
- references:参考文档,定义执行流程
- assets:素材资源,如配置文件、模板等
举个例子,一个「代码审查」Skill 可能包含:
# SKILLS.md
你是一个代码审查助手,负责检查代码质量和潜在问题。
## 审查流程
1. 读取代码文件
2. 检查语法错误
3. 分析代码风格
4. 识别潜在 bug
5. 生成审查报告
## 注意事项
- 关注安全漏洞
- 检查性能问题
- 确保代码可读性
Skills 市场是 OpenClaw 生态的关键。开发者可以发布自己的 Skills,用户一键安装即可使用。腾讯在 3 月推出的 SkillHub 就是专门为国内用户优化的 Skills 社区,提供高速下载和中文搜索。
生态演进:从技术圈层到主流应用
OpenClaw 的发展路径很清晰:
第一阶段(2026 年 1-2 月):技术用户自行部署
- 腾讯云推出 lighthouse OpenClaw
- 阿里云推出轻量云 OpenClaw
- 需要自己配置环境、调试参数
第二阶段(2026 年 2 月至今):大模型厂商推出开箱即用版本
- KimiClaw(月之暗面)
- MaxClaw(MiniMax)
- AutoClaw(智谱)
- 集成自研模型,降低使用门槛
第三阶段(正在发生):主流平台接入
- 微信、QQ、企业微信等入口
- 从「独立应用」变成「系统能力」
- C 端用户开始大规模使用
这个演进路径和移动互联网早期很像:先是技术极客折腾,然后大厂推标准化产品,最后变成基础设施。
对开发者的影响:测试边界被重写
OpenClaw 这次更新,对开发者最大的影响不是多了几个功能,而是测试范式的改变。
从功能验证到行为稳定性
传统软件测试关注的是:
- 输入 A,是否输出 B
- 边界条件是否处理正确
- 异常情况是否有错误提示
但 Agent 系统不一样。同样的输入,可能有多种正确的执行路径。你需要验证的是:
- Agent 的决策是否合理
- 执行过程是否稳定
- 结果是否符合预期
这就像测试一个人,而不是测试一个程序。
从接口测试到决策链路测试
Agent 的执行流程是动态的:
输入 → 推理 → 调用工具 → 更新记忆 → 再推理 → 调用工具 → ...
每一步都可能影响后续决策。传统的接口测试只能覆盖单个环节,无法验证整个决策链路。
你需要新的测试方法:
- 场景测试:模拟真实使用场景,观察 Agent 的完整行为
- 对抗测试:故意给出模糊或矛盾的指令,看 Agent 如何处理
- 长期测试:让 Agent 持续运行,观察记忆和策略的演化
从覆盖率到系统演化能力
最难的是验证 Agent 的学习能力。Dreaming 机制让 Agent 能自我优化,但这也带来了不确定性:
- Agent 会不会学到错误的模式?
- 优化后的策略是否真的更好?
- 如何确保 Agent 不会「越界」?
AI 测试的核心,正在从「验证结果」转向「约束系统行为」。你需要定义 Agent 的行为边界,而不是预测它的每一步操作。
争议与挑战:软件会消失吗?
OpenClaw 引发的最大争议是:如果 Agent 能操作所有软件,那软件本身还有存在的必要吗?
从 GUI 到 API:软件价值的重新定义
传统软件的价值在于界面和交互。用户需要学习如何使用,软件公司通过优化体验来建立壁垒。
但在 Agent 时代,用户不再直接操作软件。他们只需要告诉 Agent「我要做什么」,Agent 自动调用相应的服务。
这意味着:
- 衡量标准变了:从「活跃用户数」变成「API 调用量」
- 商业模式变了:从「卖界面」变成「卖基础设施」
- 竞争焦点变了:从「用户体验」变成「服务能力」
入口之争:谁控制 Agent,谁就控制流量
Agent 正在成为新的流量入口。用户不需要打开十几个 App,只需要在一个对话界面里 @ 不同的 Agent。
这让入口的价值被重新分配:
- 传统模式:用户主动寻找应用 → 浏览功能 → 完成任务
- Agent 模式:用户描述需求 → Agent 调用服务 → 返回结果
微信、QQ、企业微信等主流平台都在抢占这个入口。谁能提供最好的 Agent 体验,谁就能控制用户的注意力。
数据与上下文:新的护城河
Agent 的能力取决于两个因素:
- 数据广度:能访问多少服务和信息
- 上下文深度:对用户需求的理解程度
这两点都需要长期积累。OpenClaw 作为开源项目,在数据和上下文上都没有优势。真正的竞争会发生在大平台之间:
- 腾讯有社交数据和企业服务
- 阿里有电商数据和支付能力
- 字节有内容数据和推荐算法
谁能把这些数据和 Agent 能力结合起来,谁就能建立新的护城河。
下一步:谁会被淘汰?
OpenClaw 的更新揭示了一个趋势:AI Agent 正在从「工具」变成「平台」。
会被淘汰的:
- 只提供简单对话功能的 AI 助手
- 没有 API 能力的封闭软件
- 无法适应 Agent 调用的传统服务
会胜出的:
- 能提供丰富 API 的基础设施
- 拥有独特数据和服务能力的平台
- 能快速适应 Agent 生态的开发者
OpenClaw 这次更新,本质上是在重新定义「软件」这个概念。从用户界面到服务接口,从单次交互到持续工作流,从被动响应到主动执行。
这不是简单的功能升级,而是范式转移。就像从 PC 时代到移动时代,很多规则需要重写。
对开发者来说,现在是最好的时机。生态还在早期,标准还在形成,谁能抓住这波机会,谁就能在下一个时代占据先机。
参考来源
- OpenClaw低调更新重磅版本,龙虾长手长脚了 - 量子位 - 详细介绍了 OpenClaw 视觉交互能力的技术实现
- OpenClaw 正从"个人AI助手",演进为Agent Operating System - 知乎 - 分析了 OpenClaw 的架构演进和版本更新
- OpenClaw大版本更新之后,Agent开始向"系统级智能体"演化 - InfoQ - 深入探讨了 Dreaming 机制和记忆系统的设计