OpenAI 刚刚给 Codex 做了一次大手术。
这次更新的核心信息只有一句话:Codex 现在能像人一样操作你的电脑了——看屏幕、点鼠标、敲键盘,在各种桌面应用之间穿梭完成任务。它不再只是一个代码生成器,而是一个能在你 Mac 后台默默干活的智能体军团。
这不是小修小补。这是 Codex 从「编码工具」到「通用开发智能体」的一次身份跃迁。
电脑操控:从生成代码到执行代码
过去的 Codex 再聪明,本质上还是在一个沙盒里写代码、跑终端。你让它改个前端样式,它能生成代码,但没法自己打开浏览器看看渲染效果对不对。你让它测个 App,它只能纸上谈兵。
现在不一样了。新版 Codex 引入了原生的计算机使用能力(Computer Use),能够:
- 直接操控桌面应用程序,包括浏览器、IDE、终端、甚至 Figma 这类设计工具
- 通过视觉识别屏幕内容,理解 UI 元素的位置和状态
- 模拟鼠标点击、键盘输入、滚动等人类操作
- 在多个应用之间切换完成跨工具工作流
举个实际场景:你让 Codex 修一个前端 Bug。以前它改完代码就停了,你得自己刷新页面、检查效果、截图对比。现在它能自己打开浏览器、加载页面、截屏对比修改前后的差异、发现新问题再回去改代码——整个闭环它自己跑完。
这个能力的底层支撑来自同步发布的 GPT-5.4。这是 OpenAI 第一个具备原生且顶尖计算机使用能力的通用模型,支持高达 1M Token 的上下文窗口。百万级上下文意味着智能体可以在长周期内保持对整个项目的理解,不会「忘事」。

熟悉 Anthropic 动态的开发者应该会觉得眼熟——Claude 早在去年就推出了 Computer Use 功能。OpenAI 这次算是正面回应,而且直接把电脑操控能力绑定到了 Codex 这个已经有大量开发者用户的产品上,而不是作为一个独立的实验性 API 放出来。The Verge 的报道标题说得很直白:这是对 Claude Code 的正面开火。
不过有个现实问题:电脑操控功能目前只支持 macOS。Windows 用户暂时只能干瞪眼。社区里已经有不少吐槽了——「永远慢半拍的 Win 端」「OpenAI 的员工是不是都用 Mac」。考虑到 Codex 桌面应用今年 3 月才刚出 Windows 版,电脑操控功能登陆 Windows 估计还得等一阵。
后台多智能体:一个人指挥一支团队
如果说电脑操控是 Codex 的新技能,那后台多智能体并行就是它的新工作模式。
新版 Codex 引入了后台运行模式。多个智能体可以同时在你的 Mac 上并行工作,各自处理不同的任务,互不干扰,也不会抢占你正在使用的屏幕。你可以一边写文档,后台的 Codex 智能体们一边在帮你跑测试、审 PR、修 Bug。
Codex 桌面应用被定位为「智能体的指挥中心」。每个智能体在独立的线程中运行,按项目组织,你可以在不同任务之间无缝切换而不丢失上下文。这个设计思路很清晰:开发者的角色正在从「写代码的人」变成「指挥智能体的人」。
OpenAI 自己做了一个很有说服力的演示:他们让 Codex 从零开始做一款赛车游戏,包含不同赛车手、八张地图和道具系统。Codex 独立使用超过 700 万个 Token,同时扮演设计师、游戏开发者和 QA 测试员的角色——它甚至会自己玩游戏来验证功能是否正常。整个过程只需要一个初始提示词。
这个演示当然有秀肌肉的成分,但它展示的工作模式是真实的:你给出目标,智能体自己拆解任务、分配角色、执行验证。
长期任务自动化:不只是一次对话
这次更新中最容易被忽略、但可能最有长期价值的功能是自动化调度(Automation)。
Codex 现在支持跨越数日甚至数周的长期任务。你可以设定一个自动化流程,指定执行时间表,Codex 会按计划在后台运行。任务完成后,结果进入审核队列,等你有空了再回来检查。
这意味着什么?
- 每天凌晨自动跑一遍测试套件,早上上班直接看报告
- 每周自动审查新提交的 PR,按照团队规范给出评审意见
- 监控依赖库更新,自动创建升级 PR 并跑通测试
- 定期扫描代码库中的安全漏洞,生成修复建议
这些以前需要配置 CI/CD Pipeline 或者写专门的自动化脚本才能实现的事情,现在用自然语言描述一下就行了。
配合记忆能力的强化,Codex 可以记住你的偏好、项目背景和历史决策。它不再是每次对话都从零开始的无状态工具,而是一个越用越懂你的长期协作伙伴。
90+ 插件:打通开发工具链
新版 Codex 整合了超过 90 个插件,覆盖了开发者日常工作中几乎所有常用工具:
- 代码托管:GitHub
- 项目管理:JIRA
- 团队沟通:Slack
- 云部署:Cloudflare、Netlify、Render、Vercel
- 以及更多...
Codex 能够根据项目上下文主动建议工作优先级。比如它看到 JIRA 上有一个高优先级的 Bug,GitHub 上有相关的 Issue 讨论,Slack 里有同事提到了复现步骤——它可以把这些信息串起来,直接开始修复。
此外,Codex 还引入了「技能」(Skills)系统。技能是打包好的指令、资源和脚本的集合,让 Codex 能够可靠地连接工具、运行工作流。OpenAI 提供了一个开源的技能库,包括网页游戏开发、图像生成、云端部署等。你也可以创建自定义技能,把团队特有的工作流程封装进去。
内置浏览器和图像生成能力也是这次更新的亮点。Codex 现在可以直接在内置浏览器中查看网页效果,用 GPT 图像能力生成 UI 素材。对于全栈开发者来说,从设计到开发到部署的链路又短了一截。
GPT-5.4:Codex 背后的引擎升级
这次 Codex 更新不是单独发生的,它和 GPT-5.4 的发布是一个整体。
GPT-5.4 对 Codex 的意义在于几个关键能力:
- 原生计算机使用能力——这是电脑操控功能的基础
- 1M Token 上下文——让智能体能处理大型项目而不丢失信息
- 工具搜索(Tool Search)——在 90+ 插件生态中高效找到并使用正确的工具
- Token 效率大幅提升——相比 GPT-5.2,解决相同问题所需的 Token 显著减少
第四点对开发者的钱包很友好。Token 效率提升意味着同样的任务花更少的钱,或者同样的预算能干更多的事。Codex 还新增了 /fast 模式,可以把 GPT-5.4 的输出速度提升到 1.5 倍,模型能力不变,纯粹是更快。
对于通过 API 使用这些能力的开发者,GPT-5.4 的模型名称是 gpt-5.4,Pro 版本是 gpt-5.4-pro。如果你在用 OpenAI Hub 这类兼容 OpenAI 格式的 API 聚合服务,切换到新模型基本上就是改一下 model 参数的事:
import openai
client = openai.OpenAI(
api_key="你的 OpenAI Hub API Key",
base_url="https://api.openai-hub.com/v1"
)
# 使用 GPT-5.4 进行对话
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": "你是一个资深全栈开发助手。"},
{"role": "user", "content": "帮我分析这段代码的性能瓶颈,并给出优化方案。"}
],
max_tokens=4096
)
print(response.choices[0].message.content)
# 使用 GPT-5.4 的工具调用能力
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "user", "content": "查看我的 GitHub 仓库最近的 PR 并给出评审意见"}
],
tools=[
{
"type": "function",
"function": {
"name": "github_list_pull_requests",
"description": "列出指定仓库的 Pull Requests",
"parameters": {
"type": "object",
"properties": {
"repo": {"type": "string", "description": "仓库名称,格式: owner/repo"},
"state": {"type": "string", "enum": ["open", "closed", "all"]}
},
"required": ["repo"]
}
}
}
],
tool_choice="auto"
)
print(response.choices[0].message)
安全设计:沙盒还是得有的
让 AI 操控电脑这件事,安全问题是绕不过去的。OpenAI 在这方面的设计还算克制:
- Codex 使用原生、开源且可配置的系统级沙盒
- 默认情况下,智能体只能在指定的工作文件夹或分支中编辑文件
- 使用缓存的网页搜索,而非直接访问网络
- 需要提升权限(如网络访问)时,必须请求用户许可
- 支持为项目或团队配置规则,允许特定命令自动以更高权限运行
这个权限模型和 Linux 的 sudo 思路类似:默认最小权限,需要时逐级申请。对于企业用户来说,这种可配置的安全策略比「要么全开要么全关」实用得多。
谁能用?多少钱?
Codex 的新功能面向所有登录 ChatGPT 桌面端的用户开放。具体来说:
- ChatGPT Plus、Pro、Business、Enterprise、Edu 订阅用户可以在 CLI、网页、IDE 扩展和桌面应用中使用 Codex
- 订阅中已包含试用额度,可按需购买额外额度
- 限时向 ChatGPT 免费版和 Go 用户开放
- 所有付费套餐的现有 Codex 用户速率额度翻倍
电脑操控功能首发 macOS,Windows 暂不支持。
API 方面,GPT-5.4 的单 Token 价格高于 GPT-5.2,但凭借更好的 Token 效率,实际使用成本在很多场景下反而更低。Batch 和 Flex 模式价格为标准费率的一半,Priority 模式为两倍。
说点真话
这次更新的野心很大,但也有几个值得冷静看待的地方。
第一,电脑操控的可靠性。Anthropic 的 Computer Use 已经上线一段时间了,实际体验中误操作、卡死、理解错误的情况并不少见。OpenAI 的实现是否更稳定,还需要大量真实场景的验证。演示视频里的流畅操作和日常使用中的各种边界情况,往往是两回事。
第二,Windows 支持的缺失。开发者群体中 Windows 用户的占比不低,尤其是游戏开发、.NET 生态、企业内部工具开发等领域。macOS 优先的策略可以理解(OpenAI 内部确实 Mac 用户居多),但如果 Windows 版迟迟不跟上,会丢掉一大块市场。社区里已经有人在吐槽了,这个情绪不能忽视。
第三,长期任务自动化的信任问题。让 AI 在后台跑几天甚至几周的任务,中间不需要人工干预——这个概念很美好,但在生产环境中,大多数团队恐怕还不敢这么用。审核队列的设计是对的,但「事后审核」和「实时监控」之间的差距,在关键业务场景中可能是致命的。
第四,竞争格局。Cursor、Windsurf、Claude Code、GitHub Copilot Workspace——AI 编码工具赛道已经非常拥挤。Codex 的差异化在于它背靠 ChatGPT 的用户基础和 OpenAI 的模型能力,但其他玩家也在快速迭代。这场仗远没有到终局。
不过话说回来,Codex 这次更新确实把「AI 编码助手」的天花板又往上推了一截。从写代码到操作电脑,从单次对话到长期自动化,从单个智能体到多智能体协作——它描绘的是一个开发者作为「智能体指挥官」的未来。
这个未来离我们有多远?取决于这些功能在真实开发场景中的可靠性。但方向是清晰的,而且不可逆。
参考来源:
- OpenAI 发布 Codex 重大更新:支持自动操作电脑与长期任务自动化 - Linux.do 社区讨论 — 社区开发者对 Codex 更新的讨论与反馈