Codex 补齐 Windows:桌面代理拼图完成

产品更新

OpenAI 在 5 月 29 日推送的 Codex 26.527 版本中,把 Computer Use 能力正式带到 Windows,并开放了 Mac/手机向 Windows 派发任务的跨设备远控。但相比 macOS,Windows 版少了一个关键的锁屏操控能力。

一句话:Codex 终于不挑系统了

5 月 29 日,OpenAI 给 Codex app 推了一版编号 26.527 的更新,标题朴素得不能再朴素——"Computer use and mobile access on Windows"。三件事:Windows 版可以用 Computer Use 直接操作桌面应用;Mac、iPhone 上的 ChatGPT 可以向 Windows 机器派任务;新加了个 Profile 面板看 Token 消耗。

听起来像例行 changelog,但这条线其实拖了一个多月。4 月 16 日 OpenAI 把 Codex 的桌面操控能力公开时,只有 macOS 能用;5 月中旬手机端远程控制上线,Windows 那栏写的还是"coming soon"。这次算是把拼图最后一块补上了——对一个号称要做"通用编码代理"的产品来说,把 PC 基盘晾在一边一个多月,本身就是个不太能解释的事。

Codex Windows 端 Computer Use 操作界面示意

Computer Use 在 Windows 上能干什么

Codex 的 Computer Use 不是 RPA,也不是 AutoHotkey 那种脚本。它的工作方式更接近一个真正坐在电脑前的人类:通过屏幕截图理解当前在干什么,用鼠标点击、用键盘输入来推进任务。模型看到的是像素,发出的是 OS 级的输入事件。

放到开发者的日常里,几个高频场景立刻能跑通:

  • 跨 IDE 调试:在 Visual Studio 里跑 .NET 项目,崩溃后让 Codex 自己去看堆栈、改代码、重新编译。这条流程过去要么靠插件、要么靠人,现在 Codex 直接当人用。
  • Windows-only 工具链:游戏开发里的 Unreal Editor、嵌入式开发里的 Keil、做 Office 自动化测试这些场景,过去 macOS 版的 Codex 帮不上忙,Windows 用户只能眼馋。
  • GUI 应用回归测试:让 Codex 跑一遍带界面的客户端,截图比对、点完所有按钮看有没有报错。比 Selenium 那一套更接近真实用户行为。

需要注意的是,启用前要在 Codex 设置里装 Computer Use 插件。macOS 那边要授权屏幕录制和辅助功能,Windows 这边官方文档强调的是"保持目标窗口可见"——这是个不大不小的提示,下面会展开讲。

和 macOS 版的差距:少了 Locked Use

macOS 版 Codex 有一个挺有意思的能力叫 Locked Computer Use:Mac 锁屏之后,Codex 还能在一个受控窗口里临时解锁、继续操作应用,做完再交还控制权。这意味着你可以把家里那台 Mac mini 当成一个 7×24 在线的 AI 节点,人不在、屏幕黑着,活照样干。

Windows 这次没给。OpenAI 文档原话写得很直接:Locked use is for macOS;Windows 上 Computer Use 是"前台能力",目标窗口必须是可见的、不能被遮挡。

这个差距背后其实是系统层面的事。macOS 的会话锁定后保留了一套虚拟会话给屏幕共享和 sudo 操作,OpenAI 能基于这个机制做文章;Windows 的锁屏会进入 Secure Desktop(就是按 Ctrl+Alt+Del 切到的那个隔离桌面),用户态进程基本上不可能在这个状态下注入输入。除非走 Windows Service + Session 0 那一套——以 OpenAI 现在的产品哲学(让用户少配置、少给权限),不太可能马上铺开。

所以"把家里旧电脑组成 Codex 算力网络"这种说法,目前严格意义上只在 Mac 上成立。Windows 端的 Codex 更接近一个"白天有人值守的工位代理"。

跨设备远控:从 Mac、手机指挥 Windows

远程控制功能是这次更新的另一个重头。在 Mac 或者手机上打开 ChatGPT,就能把任务派给那台跑着 Codex 的 Windows 主机,并实时看执行进度。

实际的工作流大概是这样:

  1. 通勤路上想到一个 bug,掏出手机在 ChatGPT 里说"去 main 分支跑一下昨晚那个失败的测试,把日志贴回来"。
  2. 家里的 Windows 工作站收到任务,Codex 在前台打开 IDE,执行测试。
  3. 手机上看到日志输出,确认是某个依赖版本问题,再让它改 requirements、重跑。

这个体验和之前社区里流行的"手机用连连控 + 浏览器跳板"那套土法相比是质变。土法本质上是把手机变成显示器,所有操作还要你手指头去点;Codex 的远控是真正的任务派发——你说要什么结果,剩下的它自己想办法。

但有个前提没怎么被讨论:因为 Windows 没有 Locked Use,远控的前提是那台 Windows 机器屏幕处于解锁状态。所以现实情况大概率是你出门前要把电脑设成"永不锁屏",或者干脆不设密码。这在企业环境里基本就告别了——大部分公司的组策略不允许这么干。

区域限制和合规

顺带一提,Codex app 的 Computer Use 现在虽然 macOS 和 Windows 都支持,但官方明确说不向欧洲经济区、英国和瑞士开放。原因没明说,大概率和 AI Act、GDPR 里对"自动化决策"和"屏幕录制类"能力的合规要求有关。让一个模型在你的电脑上随便点来点去,监管侧确实需要时间消化。

国内开发者要用 Codex app 本身需要 ChatGPT 账号,调用层面如果只是想用 Codex 背后那套模型能力做编码 agent,走 API 是更顺的路径——这块 OpenAI Hub 一直在跟,gpt-5-codex 系列模型目前在聚合服务里都能直接调,兼容 OpenAI 格式。

Profile 面板:终于能看到自己烧了多少钱

这次更新里被低估的是新的 Profile 面板。它做了两件事:

  • Token 消耗实时审计图表:按时间、按任务粒度看本次会话用了多少 token,哪些操作最贵。
  • 用量自限机制:可以设置上限,达到阈值自动停。

对长期跑 agent 的人来说这是刚需。一个 Computer Use 任务里,每一次截图都是一张图片输入,token 烧得相当快——你让它调试半小时,几十万 token 是常态。过去 Codex 在这块的可观测性其实是缺失的,账单出来才知道贵在哪。

现在有了图表和自限,至少不会出现"睡一觉起来发现 agent 卡在某个死循环里烧了两百美元"这种事。这种事社区里真的发生过不止一次。

这次更新放到产品演进里看

把 Codex 过去半年的 changelog 拉出来看,路线非常清晰:

  • 独立桌面 app → 摆脱浏览器和 IDE 插件的限制
  • in-app browser → 让 agent 能上网查资料
  • Computer Use(macOS)→ 操控本地桌面
  • 远程 SSH → 操控远程服务器
  • 手机端远程控制 → 跨设备触发
  • Computer Use(Windows)→ 平台覆盖完整

OpenAI 在 Codex 上的策略和 Claude Code 完全不一样。Anthropic 那边走的是 CLI 优先、嵌入 IDE、做 SDK 给别人二次开发;OpenAI 这边走的是"做一个独立的 desktop agent,让它能操作一切"。这两条路通向的产品形态差别极大——前者是开发者工具,后者是"数字员工"。

Windows Computer Use 落地之后,Codex 的可控基盘从苹果生态扩到了全球 70% 以上的 PC 装机量上。这步走完,下一步大概率是 Linux——尽管对个人开发者来说 Linux 桌面 use 的需求没那么大,但服务器侧的代理能力是企业市场的入场券。

给开发者的几个实操建议

如果你打算今天就升级试试:

  1. 先把那台不重要的 Windows 机器升上去。Computer Use 涉及输入注入和屏幕录制权限,先在副机上跑通流程再上主力。
  2. 把目标应用单独放一个虚拟桌面。Windows 的多桌面(Win+Tab 新建)可以把 Codex 操作的窗口和你自己的工作隔开,减少互相干扰。
  3. 设好 Token 上限。Profile 面板里那个自限阈值,第一次用建议设得保守一点,跑几个任务摸清楚平均消耗再放开。
  4. 远控前确认电源策略。把目标 Windows 机器的睡眠、锁屏全部关掉,否则远控会失败。
  5. 不要让 Codex 操作有密码框的场景。截图传到模型那边的,敏感信息要避开。

Windows Computer Use 终于上线,但它现在还是个"有人在家的版本"。等哪天 OpenAI 想出办法解决 Session 0 的问题,Windows 版的 Locked Use 也补上,那时候"全屋设备组成 Codex 算力网络"的说法才算真正成立。

参考来源