OpenAI 没发公告,但事情已经发生了——Codex Desktop 最新的 Mac 版本(26.422.20832)悄悄塞进了一个 Browser Use 插件,更新后自动安装,不需要手动配置。打开设置就能看到「浏览器使用」选项。
这意味着什么?你的 AI 编程助手不再是一个只能读写本地文件的工具了。它现在能打开网页,能看到页面渲染结果,能在浏览器里执行操作。这不是一个小功能迭代,这是 Codex 从「代码编辑器插件」向「桌面 AI Agent」转型的关键一步。

到底更新了什么
先说事实。4 月 22 日推送的这个版本,核心变化有几个:
- 内置浏览器:Codex Desktop 应用内直接嵌入了一个浏览器环境,不再需要你切到 Chrome 去看前端效果
- Browser Use 插件自动安装:更新后即生效,在设置中可以看到并管理
- 页面圈点批注:你可以直接在渲染出来的网页上画圈、标注、写评论,然后把这些视觉指令传给 AI Agent
- 图像生成集成:接入了 gpt-image-1.5,可以在开发流程中直接生成图片素材
- 90+ 新插件:从 Atlassian 到 Slack,一口气接入了大量第三方服务
其中最值得说的,就是 Browser Use。
Browser Use 为什么是大事
过去一年,AI 编程工具的竞争焦点一直在「代码生成质量」上——谁补全得更准,谁理解上下文更深,谁能一次性生成更长的可用代码。Cursor、Windsurf、GitHub Copilot,包括 Codex 自己,都在这条路上卷。
但有一个问题始终没解决:AI 写完代码之后呢?
一个前端开发者的典型工作流是这样的:写代码 → 切到浏览器 → 刷新页面 → 看效果 → 发现问题 → 切回编辑器 → 改代码 → 再切到浏览器。这个循环每天要重复几十上百次。AI 能帮你写代码,但「看效果」和「判断效果对不对」这两步,它完全插不上手。
你得自己截图,粘贴给 AI,描述哪里不对,然后等它改。或者更常见的情况是——你懒得截图描述,直接自己改了,AI 在这个环节彻底退场。
Browser Use 解决的就是这个断裂。
现在 Codex 能直接看到页面渲染结果了。不是通过你的描述,不是通过截图,而是它自己打开浏览器,自己看。更进一步,你可以在页面上圈一个元素告诉它「这个按钮的间距不对」,它能同时拿到视觉信息和 DOM 结构,然后回去改代码。
这个闭环一旦打通,效率提升不是线性的。
从「写代码」到「用电脑」
把这次更新放到更大的背景里看,OpenAI 的意图很明显:Codex Desktop 不想只做一个编程工具,它要做一个通用的桌面 AI Agent。
证据不只是 Browser Use。这次更新还带来了 Computer Use 能力——AI 可以直接操作 Mac 上的应用程序。有开发者已经演示了用 Codex 自动打开浏览器、生成海报、甚至上传到小红书的完整流程。这已经不是「辅助编程」了,这是「替你操作电脑」。
90 多个新插件的接入也指向同一个方向。当 AI 能连接 Jira 读需求、连接 Slack 发消息、连接 GitHub 提 PR、连接浏览器看效果,它就不再是工具链中的一个环节,而是坐在工具链中心的调度者。
OpenAI 官方也透露,未来将进一步开放完整的浏览器控制能力,让 Codex 可以自动打开网站、填写表单、执行更复杂的网页操作。现在的 Browser Use 还只是第一步。
实际体验:能用,但有边界
说完愿景,说说现实。
从社区反馈来看,Browser Use 目前的主要使用场景集中在两个方向:
前端开发调试是最直接的场景。写完一个组件,Codex 自己打开内置浏览器渲染,你在页面上标注「这个卡片的阴影太重了」「这两个元素没对齐」,它直接改。不需要切窗口,不需要截图描述,整个反馈循环在一个应用内完成。
游戏调试是另一个被提到的场景。对于基于 Web 技术的游戏开发(Canvas、WebGL、Phaser 之类),以前让 AI 帮忙调游戏画面几乎不可能——你没法用文字精确描述「这个精灵的碰撞箱偏了 3 个像素」。现在 AI 能直接看到游戏画面,这个问题至少有了解决的可能。
但要注意几个限制:
- 目前仅限 Mac 版本。Windows 和 Linux 用户暂时用不上,OpenAI 没有给出跨平台的时间表
- 浏览器能力还不完整。现阶段更多是「查看和标注」,完整的自动化浏览器操作(自动填表单、自动点击流程)还在开发中
- 性能开销。内置浏览器意味着 Codex Desktop 的资源占用会进一步增加,对于内存紧张的机器来说可能是个问题
- 隐私和安全。AI Agent 能操作浏览器,这件事本身就需要谨慎对待。你的登录态、Cookie、敏感页面内容,都可能被 Agent 访问到
竞品在做什么
Browser Use 并不是一个全新的概念。事实上,开源社区的 browser-use 项目早就在做类似的事情——让 AI Agent 能够控制浏览器完成任务。Anthropic 的 Claude 也在去年推出了 Computer Use 功能,能够操作桌面应用和浏览器。
但 OpenAI 这次做的不一样的地方在于:它把浏览器直接嵌进了开发工具里。
Claude 的 Computer Use 是一个通用能力,它通过截图识别屏幕内容,然后模拟鼠标键盘操作。这种方式通用性强,但精度和速度都有限——它本质上是在「看图操作」,跟人类远程桌面控制差不多。
Codex 的 Browser Use 是专门为开发场景设计的。内置浏览器意味着 AI 不仅能看到渲染结果,还能直接访问 DOM 结构、CSS 样式、JavaScript 控制台输出。这些结构化信息比截图有用得多。当你在页面上圈一个元素时,AI 拿到的不只是一个像素区域,而是对应的 HTML 节点和它的完整样式链。
Cursor 和 Windsurf 目前还没有类似的内置浏览器功能。Cursor 的优势在于代码编辑体验和多模型支持,Windsurf 强在代码库理解和上下文管理,但它们都还停留在「编辑器」的定位上。Codex 这一步,等于是在编辑器里装了一个浏览器和一套自动化框架,直接把产品形态拉到了不同的维度。
当然,Cursor 和 Windsurf 跟进只是时间问题。浏览器集成不是什么技术壁垒,真正的壁垒在于 AI 模型对视觉信息的理解能力,以及视觉反馈和代码修改之间的闭环质量。这方面 OpenAI 有 GPT-4o 的多模态能力做底座,确实有先发优势。
对开发者意味着什么
说点实在的。
如果你是前端开发者,这个更新值得你认真关注。Browser Use 解决的是 AI 辅助开发中最大的断点之一——视觉反馈。以前你需要当 AI 的「眼睛」,现在它自己能看了。这会显著改变你和 AI 协作的方式。
如果你是后端开发者,短期内影响不大。Browser Use 目前的价值主要体现在有视觉输出的开发场景中。但长远来看,当 Codex 的浏览器控制能力完善后,它可以帮你自动测试 API 接口(打开 Swagger UI 跑请求)、自动查文档、自动在管理后台执行操作,这些场景都会逐步解锁。
如果你是独立开发者或者小团队,这可能是最大的利好。以前一个人做全栈,最痛苦的就是前端调试——写完逻辑还要花大量时间调样式、调交互。现在 AI 能直接看到页面效果并自主修改,相当于你多了一个能看懂设计稿的前端搭档。
一个值得思考的问题是:当 AI Agent 能操作浏览器、能连接各种第三方服务、能自主完成多步骤任务时,「编程」这件事的定义本身是不是在变化?
你可能不再需要告诉 AI「把这个 div 的 margin-top 改成 16px」,而是直接在页面上画一条线说「这里的间距应该是这么大」。你可能不再需要写部署脚本,而是告诉 AI「把这个页面部署到线上」,它自己去操作 Vercel 或者 Netlify 的界面完成部署。
这不是科幻。从这次更新来看,OpenAI 正在一步步把这个变成现实。
怎么用上这个功能
操作很简单:
- 确保你使用的是 Mac 版 Codex Desktop
- 更新到最新版本(26.422.20832 或更高)
- 打开设置,找到「浏览器使用」选项
- Browser Use 插件应该已经自动安装,如果没有,手动启用即可
更新后不需要额外配置,插件是随版本自动安装的。从社区反馈来看,大部分用户更新后直接就能在设置中看到这个选项。
一点判断
OpenAI 这次更新没有大张旗鼓地宣传,甚至连官方博客都没发。但这可能是 Codex Desktop 自发布以来最重要的一次功能更新。
原因很简单:它改变了 AI 编程助手的能力边界。
之前所有的 AI 编程工具,不管多强,本质上都是「文本进,文本出」——你用文字描述需求,AI 用代码回应。Browser Use 打破了这个限制,让 AI 第一次能够「看到」自己写的代码跑起来是什么样子,并且基于视觉反馈自主迭代。
这是 AI Agent 在开发领域落地的一个真实里程碑。不是概念演示,不是论文里的 benchmark,而是一个你今天就能更新、今天就能用上的功能。
至于它好不好用、稳不稳定、能不能真正提升效率——这些问题的答案,取决于你愿不愿意花 10 分钟更新一下试试看。
参考来源
- Codex Desktop(26.422.20832)Mac 版更新自带 Browser Use 插件 - Linux.do — 社区用户最早发现并讨论该更新的帖子
- OpenAI 给 Codex 桌面应用做了一次大更新,装备了六大能力 - 知乎 — 对 Codex Desktop 本次大版本更新的完整功能梳理