微软不想再让OpenClaw独占"AI智能体"这块地盘了。
4月14日,据科技媒体《The Information》报道,微软正在内部测试一项重要功能——将类似OpenClaw的智能体能力直接整合进Microsoft 365 Copilot。这不是一个概念验证,而是由企业副总裁Omar Shahine领导的专门团队在推进的项目,目标很明确:打造一批能全天候自主运行、无需用户逐条下指令就能处理复杂任务的AI智能体。
微软向媒体确认了这一消息,并强调新功能将面向企业客户,且会配备比开源OpenClaw更完善的安全管控机制。
换句话说,微软要做一个"企业级的、跑在云端的、套着安全壳的OpenClaw"。
为什么是现在?
要理解微软这步棋,得先看看OpenClaw这半年干了什么。
OpenClaw是一款开源的computer-use智能体,跑在用户本地电脑上,能像一个真人助手一样操作你的桌面——点击按钮、填写表单、在不同应用间切换、执行多步骤任务。它本质上是把大语言模型的推理能力和屏幕操控能力结合在了一起,让AI不再只是"聊天",而是真正"干活"。
过去几个月,OpenClaw的用户量增长极快。一个有意思的侧面数据是:Mac Mini的销量因为OpenClaw一度暴涨——因为这款小巧便宜的台式机成了OpenClaw用户的首选运行平台,很多人专门买一台Mac Mini当作7×24小时的AI工作站。
这对微软来说是一个危险信号。
不是因为OpenClaw本身威胁到了Windows的市场份额——它在Windows上也能跑——而是因为它代表了一种趋势:用户开始绕过微软的生态,用开源工具+本地硬件的方式搭建自己的AI工作流。如果这种模式成为主流,微软花大力气构建的Microsoft 365 Copilot生态就会被架空。

微软手里已经有什么牌?
其实微软在智能体方向已经布局了好几步,只是每一步都不够"OpenClaw"。
Copilot Cowork(2025年3月)
这是目前微软最接近OpenClaw的产品。Cowork不只是一个聊天窗口,它能直接在Word、Excel、Outlook、Teams、PowerPoint等Microsoft 365应用内执行操作。比如你说"把上周的销售数据整理成表格,发给市场部",Cowork可以跨应用完成这个任务。
Cowork由微软自研的"Work IQ"技术驱动,这是一个智能层,能理解你的工作上下文——你最近在处理什么项目、跟谁在协作、哪些文件是相关的。这一点是OpenClaw做不到的,因为OpenClaw只能看到屏幕上的像素,不理解你的业务语境。
值得一提的是,微软去年底和Anthropic达成合作后,把Claude模型引入了Cowork作为可选模型。这个选择很有意思——Claude恰恰是OpenClaw社区里最受欢迎的底层模型。微软显然在研究对手的用户偏好。
但Cowork的局限也很明显:它只能操作Microsoft 365生态内的应用,不能像OpenClaw那样操控任意桌面软件。
Copilot Tasks(2025年2月)
这是另一款任务型智能体,以预览版形式发布,定位偏向高端个人用户。它能处理的事情包括整理邮件、规划行程、预约会议等,甚至能处理Office套件之外的任务。
但Copilot Tasks更像是一个"高级提醒+自动化"工具,离真正的自主智能体还有距离。它不能像OpenClaw那样在屏幕上"看到"并"操作"任意界面元素。
新的类OpenClaw智能体(测试中)
现在微软要做的这个新东西,定位明显不同于以上两者。根据已知信息,它的核心特性是:
- 全天候运行:本质上是一个"永不下线"的365 Copilot版本,可以在后台持续执行任务
- 多步骤任务:能处理需要长时间、跨多个环节才能完成的复杂工作流
- 企业级安全:相比OpenClaw的"裸奔"模式,会有权限控制、审计日志、数据隔离等企业必需的安全特性
目前还不清楚的关键问题是:它会不会支持本地运行?
OpenClaw的一大卖点就是跑在本地,数据不出设备。对于很多对数据安全敏感的用户来说,这是选择OpenClaw而非云端方案的核心原因。如果微软的方案只跑在云端,那它和OpenClaw就不是同一个赛道的竞争。
企业市场才是真正的战场
微软把这个功能定位为面向企业客户,这个选择很聪明,也很微软。
OpenClaw虽然火,但它在企业场景里有几个致命问题:
第一,安全风险太高。 OpenClaw能操控你电脑上的一切——它能看到你的屏幕,能点击任何按钮,能输入任何内容。在个人使用场景下这没什么,但在企业环境里,这意味着一个AI智能体可能接触到机密文件、客户数据、内部系统。没有权限控制、没有操作审计、没有数据隔离,任何一个负责任的IT部门都不会批准在生产环境中部署它。
第二,合规性缺失。 金融、医疗、政府等行业对数据处理有严格的合规要求。OpenClaw作为一个开源项目,不提供SLA、不提供合规认证、不提供企业级支持。出了问题,没人兜底。
第三,管理成本高。 如果一个500人的公司要部署OpenClaw,意味着要在500台电脑上分别安装、配置、维护。IT部门需要管理500个本地实例,确保每一个都在正常运行、没有被滥用。这个运维成本是很多企业不愿意承担的。
微软的方案恰好可以解决这些问题。跑在云端意味着集中管理,整合进365意味着天然兼容企业现有的权限体系和合规框架,面向企业客户意味着有专门的支持和SLA。
对于企业IT决策者来说,选择很简单:是用一个没有安全保障的开源工具,还是用已经在付费的Microsoft 365里内置的、有企业级安全管控的同类功能?
技术路线的分歧
从技术实现上看,微软的方案和OpenClaw走的是两条不同的路。
OpenClaw的核心技术是computer-use——通过截屏、识别UI元素、模拟鼠标键盘操作来控制电脑。这种方式的优点是通用性极强,理论上能操控任何有图形界面的软件;缺点是效率低、容易出错、对模型的视觉理解能力要求很高。
微软的Copilot体系走的是API集成路线——通过Microsoft Graph API和各应用的内部接口直接操作数据和功能。这种方式效率高、准确性好、不依赖视觉识别,但只能操作有API接口的应用,通用性受限。
打个比方:OpenClaw像是一个坐在电脑前的实习生,通过看屏幕、动鼠标来完成任务;微软的方案像是一个有系统管理员权限的自动化脚本,直接在后台调用接口完成操作。前者更灵活,后者更可靠。
微软新测试的这个智能体,很可能会尝试融合两种路线——在Microsoft 365生态内用API集成保证效率和准确性,在生态外的场景则借鉴computer-use的思路来扩展能力边界。
对开发者意味着什么?
如果你是一个正在基于大模型构建智能体应用的开发者,微软这个动作释放了几个信号:
1. 智能体的战场正在从"能不能做"转向"怎么安全地做"。 OpenClaw证明了AI智能体在技术上是可行的,但企业级落地需要解决安全、合规、可管理性等一系列工程问题。这些问题的解决方案本身就是巨大的商业机会。
2. 多模型支持正在成为标配。 微软在Cowork里同时支持自家模型和Claude,OpenClaw本身就兼容多款大模型。这意味着智能体应用不应该绑死在某一个模型上,而是要有灵活切换底层模型的能力。
3. 长时间运行的智能体是下一个方向。 微软强调"全天候运行"和"多步骤任务",这和之前的"一问一答"式AI助手有本质区别。构建能持续运行数小时甚至数天的智能体,对基础设施、状态管理、错误恢复都提出了新的要求。
对于需要在项目中集成多种大模型能力的开发者来说,模型的灵活切换是一个实际的工程问题。比如你可能希望在智能体的规划阶段用推理能力更强的模型,在执行阶段用响应更快的模型,在处理视觉任务时切换到多模态模型。通过OpenAI Hub这类API聚合平台,一个Key就能调用GPT、Claude、Gemini、DeepSeek等主流模型,省去了分别对接各家API的麻烦,在国内网络环境下也能直连使用。
如果你正在构建类似的多模型智能体应用,调用不同模型的代码可以非常简洁:
from openai import OpenAI
# 通过 OpenAI Hub 统一调用不同模型
client = OpenAI(
base_url="https://api.openai-hub.com/v1",
api_key="your-openai-hub-key"
)
# 规划阶段:用 Claude 做任务拆解
planning_response = client.chat.completions.create(
model="claude-sonnet-4-20250514",
messages=[
{"role": "system", "content": "你是一个任务规划智能体,负责将复杂任务拆解为可执行的步骤。"},
{"role": "user", "content": "整理本周所有客户邮件,按优先级分类,并为高优先级邮件草拟回复"}
]
)
# 执行阶段:用 GPT-4o 快速处理子任务
execution_response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "你是一个邮件处理智能体,负责分类和草拟回复。"},
{"role": "user", "content": planning_response.choices[0].message.content}
]
)
# 视觉任务:用多模态模型识别屏幕内容
vision_response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "识别这个界面中的所有可操作元素"},
{"type": "image_url", "image_url": {"url": "data:image/png;base64,{screenshot_base64}"}}
]
}
]
)
接口格式完全兼容OpenAI SDK,切换模型只需要改一个model参数,这在构建需要多模型协作的智能体时非常实用。
更大的图景
把视角拉远一点看,微软这次的动作是科技巨头"收编"开源AI工具的又一个案例。
这个模式我们已经见过很多次了:开源社区做出一个创新性的工具,证明了某个方向的可行性,然后大公司迅速跟进,用自己的平台优势、企业关系和工程能力做出一个"企业版"。开源版本继续服务于开发者和技术爱好者,企业版本则吃掉利润最丰厚的商业市场。
OpenClaw的处境和当年的很多开源项目类似——它在技术社区里很火,但要进入企业市场,需要跨越安全、合规、支持等一系列门槛。微软不需要做出一个比OpenClaw更好的产品,只需要做出一个"足够好且足够安全"的产品,然后把它塞进已经有数亿用户的Microsoft 365里。
这对OpenClaw来说未必是坏事。企业市场本来就不是开源项目的主战场,微软的入局反而验证了这个方向的价值,可能会吸引更多开发者参与OpenClaw的生态建设。
但对于那些试图基于OpenClaw做企业级解决方案的创业公司来说,微软的这一步棋确实压缩了它们的生存空间。当微软把类似功能内置到365里,企业客户很难有理由再去采购第三方方案。
接下来看什么?
这个项目目前还在测试阶段,几个关键问题值得持续关注:
- 是否支持本地运行? 这决定了它能否覆盖对数据安全要求极高的场景
- 能否操控Microsoft 365之外的应用? 这决定了它是Cowork的升级版,还是真正的OpenClaw竞品
- 定价模式是什么? 是包含在现有365订阅里,还是作为高级功能单独收费
- 底层用什么模型? 是只用微软自家模型,还是像Cowork一样支持Claude等第三方模型
微软大概率会在今年的Build大会(通常在5月)上公布更多细节。在那之前,这个项目的具体形态还有很大的不确定性。
但有一点是确定的:AI智能体正在从极客玩具变成生产力工具,而这个转变的速度比大多数人预期的要快。
参考来源
- IT之家:微软正研发另一款类OpenClaw智能体,将整合进Microsoft 365 Copilot — 本文核心信息来源,包含微软官方确认及产品细节