OpenClaw 重磅更新:Agent 长出「眼睛和手」

行业快讯

OpenClaw 最新版本引入视觉交互能力和 Dreaming 机制,Agent 从「对话工具」进化为「系统级智能体」,能看屏幕、操作界面、离线思考,正在改写 AI Agent 的能力边界。

OpenClaw 重磅更新:Agent 长出「眼睛和手」

OpenClaw 刚刚推送了一个低调但重磅的版本更新。这次不是修修补补,而是让 Agent 长出了「眼睛和手」——能看到屏幕内容,也能操作鼠标键盘。配合新增的 Dreaming 机制,Agent 开始具备离线思考能力。

这意味着什么?AI Agent 正在从「对话工具」演进为「系统级智能体」。它不再只是回答问题,而是能主动执行任务、持续工作、自我优化。

视觉交互:Agent 终于能「看懂」界面了

过去 Agent 操作电脑的方式很原始:要么通过 API 调用,要么靠命令行。遇到没有 API 的软件就抓瞎,遇到复杂的 GUI 界面更是束手无策。

这次更新直接给 Agent 装上了视觉能力。它能截取屏幕内容,理解界面布局,识别按钮、输入框、菜单的位置和功能。然后通过模拟鼠标点击、键盘输入来完成操作。

OpenClaw 视觉交互示意图,展示 Agent 识别界面元素并执行操作的流程

这个能力的价值在哪?举个例子:

  • 传统方式:你想让 Agent 帮你整理邮件,它需要邮件服务商提供 API,还得处理各种权限和认证问题
  • 视觉交互方式:Agent 直接打开你的邮件客户端,像人一样浏览、分类、归档邮件

从技术实现看,这套方案结合了多模态模型的视觉理解能力和 RPA(机器人流程自动化)的操作能力。但关键突破在于:Agent 不需要预先知道界面结构,它能实时理解和适应不同的 UI 设计。

这让 Agent 的适用范围一下子扩大了几个数量级。理论上,只要是人能操作的软件,Agent 都能学会。

Dreaming 机制:Agent 开始「离线思考」

OpenClaw 这次更新的另一个核心是 Dreaming 机制。这个名字起得很形象——Agent 在不工作的时候也在「做梦」,整理记忆、优化策略。

记忆从「存储」变成「认知」

以前 Agent 的记忆机制很粗暴:把对话历史、操作记录全部存下来,需要的时候再检索。问题是:

  1. 上下文混乱:记忆越多越难找到有用信息,经常答非所问
  2. 不会成长:同样的错误反复犯,没有学习能力
  3. 无法泛化:在 A 场景学到的经验,在 B 场景完全用不上

Dreaming 机制做的是把原始记忆转化为结构化认知。具体来说:

原始记忆

用户说:帮我订明天去上海的机票
Agent 操作:打开携程 → 搜索航班 → 选择时间 → 填写信息 → 支付
结果:订票成功

结构化认知

任务模式:订机票
关键步骤:
  1. 确认出发地、目的地、时间
  2. 比较价格和时间
  3. 确认乘客信息
  4. 完成支付
注意事项:
  - 需要提前确认证件信息
  - 支付前再次确认时间
  - 保存订单号

Agent 会在空闲时间自动运行 Dreaming 流程,把零散的操作记录提炼成可复用的任务模板。下次遇到类似任务,直接调用模板,效率和准确率都大幅提升。

从「执行器」到「操作系统」

Dreaming 机制的本质是给 Agent 加了一个「运行时」(Runtime)。这个概念很重要,它标志着 Agent 架构正在向操作系统形态演进。

传统 Agent 是无状态的:

  • 接收指令 → 执行 → 返回结果 → 结束
  • 每次都是全新开始,没有持续性

新架构下的 Agent 有了持续运行的能力:

  • 前台任务:响应用户指令,执行具体操作
  • 后台任务:整理记忆、优化策略、预加载资源
  • 调度机制:根据优先级分配计算资源

这就像从单线程程序进化到多任务操作系统。Agent 不再是「用完即走」的工具,而是一个持续运行、不断进化的系统。

技术实现:Skills + API 的双轮驱动

OpenClaw 的能力体系围绕两个核心展开:Skills 和 API。

API:连接外部世界

API 解决的是「能做什么」的问题。OpenClaw 通过 MCP(Model Context Protocol)协议,可以调用各种外部服务:

  • 文件系统:读写本地文件
  • 网络服务:调用第三方 API
  • 数据库:查询和更新数据
  • 消息平台:接入飞书、企微、QQ 等

MCP 的设计很聪明,它不是简单的 API 聚合,而是提供了统一的上下文管理机制。Agent 可以在不同服务之间传递状态,实现跨平台的工作流。

Skills:定义执行逻辑

Skills 解决的是「怎么做」的问题。一个 Skill 本质上是一套可复用的任务模板,包含:

  • SKILLS.md:任务说明,告诉 Agent「你是谁、要做什么」
  • scripts:可执行脚本,提供具体工具
  • references:参考文档,定义执行流程
  • assets:素材资源,如配置文件、模板等

举个例子,一个「代码审查」Skill 可能包含:

# SKILLS.md
你是一个代码审查助手,负责检查代码质量和潜在问题。

## 审查流程
1. 读取代码文件
2. 检查语法错误
3. 分析代码风格
4. 识别潜在 bug
5. 生成审查报告

## 注意事项
- 关注安全漏洞
- 检查性能问题
- 确保代码可读性

Skills 市场是 OpenClaw 生态的关键。开发者可以发布自己的 Skills,用户一键安装即可使用。腾讯在 3 月推出的 SkillHub 就是专门为国内用户优化的 Skills 社区,提供高速下载和中文搜索。

生态演进:从技术圈层到主流应用

OpenClaw 的发展路径很清晰:

第一阶段(2026 年 1-2 月):技术用户自行部署

  • 腾讯云推出 lighthouse OpenClaw
  • 阿里云推出轻量云 OpenClaw
  • 需要自己配置环境、调试参数

第二阶段(2026 年 2 月至今):大模型厂商推出开箱即用版本

  • KimiClaw(月之暗面)
  • MaxClaw(MiniMax)
  • AutoClaw(智谱)
  • 集成自研模型,降低使用门槛

第三阶段(正在发生):主流平台接入

  • 微信、QQ、企业微信等入口
  • 从「独立应用」变成「系统能力」
  • C 端用户开始大规模使用

这个演进路径和移动互联网早期很像:先是技术极客折腾,然后大厂推标准化产品,最后变成基础设施。

对开发者的影响:测试边界被重写

OpenClaw 这次更新,对开发者最大的影响不是多了几个功能,而是测试范式的改变。

从功能验证到行为稳定性

传统软件测试关注的是:

  • 输入 A,是否输出 B
  • 边界条件是否处理正确
  • 异常情况是否有错误提示

但 Agent 系统不一样。同样的输入,可能有多种正确的执行路径。你需要验证的是:

  • Agent 的决策是否合理
  • 执行过程是否稳定
  • 结果是否符合预期

这就像测试一个人,而不是测试一个程序。

从接口测试到决策链路测试

Agent 的执行流程是动态的:

输入 → 推理 → 调用工具 → 更新记忆 → 再推理 → 调用工具 → ...

每一步都可能影响后续决策。传统的接口测试只能覆盖单个环节,无法验证整个决策链路。

你需要新的测试方法:

  • 场景测试:模拟真实使用场景,观察 Agent 的完整行为
  • 对抗测试:故意给出模糊或矛盾的指令,看 Agent 如何处理
  • 长期测试:让 Agent 持续运行,观察记忆和策略的演化

从覆盖率到系统演化能力

最难的是验证 Agent 的学习能力。Dreaming 机制让 Agent 能自我优化,但这也带来了不确定性:

  • Agent 会不会学到错误的模式?
  • 优化后的策略是否真的更好?
  • 如何确保 Agent 不会「越界」?

AI 测试的核心,正在从「验证结果」转向「约束系统行为」。你需要定义 Agent 的行为边界,而不是预测它的每一步操作。

争议与挑战:软件会消失吗?

OpenClaw 引发的最大争议是:如果 Agent 能操作所有软件,那软件本身还有存在的必要吗?

从 GUI 到 API:软件价值的重新定义

传统软件的价值在于界面和交互。用户需要学习如何使用,软件公司通过优化体验来建立壁垒。

但在 Agent 时代,用户不再直接操作软件。他们只需要告诉 Agent「我要做什么」,Agent 自动调用相应的服务。

这意味着:

  • 衡量标准变了:从「活跃用户数」变成「API 调用量」
  • 商业模式变了:从「卖界面」变成「卖基础设施」
  • 竞争焦点变了:从「用户体验」变成「服务能力」

入口之争:谁控制 Agent,谁就控制流量

Agent 正在成为新的流量入口。用户不需要打开十几个 App,只需要在一个对话界面里 @ 不同的 Agent。

这让入口的价值被重新分配:

  • 传统模式:用户主动寻找应用 → 浏览功能 → 完成任务
  • Agent 模式:用户描述需求 → Agent 调用服务 → 返回结果

微信、QQ、企业微信等主流平台都在抢占这个入口。谁能提供最好的 Agent 体验,谁就能控制用户的注意力。

数据与上下文:新的护城河

Agent 的能力取决于两个因素:

  1. 数据广度:能访问多少服务和信息
  2. 上下文深度:对用户需求的理解程度

这两点都需要长期积累。OpenClaw 作为开源项目,在数据和上下文上都没有优势。真正的竞争会发生在大平台之间:

  • 腾讯有社交数据和企业服务
  • 阿里有电商数据和支付能力
  • 字节有内容数据和推荐算法

谁能把这些数据和 Agent 能力结合起来,谁就能建立新的护城河。

下一步:谁会被淘汰?

OpenClaw 的更新揭示了一个趋势:AI Agent 正在从「工具」变成「平台」。

会被淘汰的

  • 只提供简单对话功能的 AI 助手
  • 没有 API 能力的封闭软件
  • 无法适应 Agent 调用的传统服务

会胜出的

  • 能提供丰富 API 的基础设施
  • 拥有独特数据和服务能力的平台
  • 能快速适应 Agent 生态的开发者

OpenClaw 这次更新,本质上是在重新定义「软件」这个概念。从用户界面到服务接口,从单次交互到持续工作流,从被动响应到主动执行。

这不是简单的功能升级,而是范式转移。就像从 PC 时代到移动时代,很多规则需要重写。

对开发者来说,现在是最好的时机。生态还在早期,标准还在形成,谁能抓住这波机会,谁就能在下一个时代占据先机。


参考来源