OpenAI给Codex加远程控制:手机接管桌面会话要来了

产品更新

安卓版ChatGPT最新代码暴露OpenAI正在为Codex搭建跨端远程控制能力,开发者将能用手机接管桌面上的Codex会话,补齐与Claude Code的体验差距。

OpenAI 给 Codex 加远程控制:开发者终于能用手机接管桌面会话了

这事是从一段被挖出来的安卓代码开始的。

5 月 8 日,Android Authority 在拆解安卓版 ChatGPT 1.2026.125 的过程中,发现 OpenAI 正在悄悄为 Codex 铺设一套完整的远程连接体系——开发者未来可以在桌面登录 Codex,然后用手机连接、恢复甚至重连这个远程会话。换句话说,那个一直只能"坐在工位上才能用"的 Codex,要变成可以揣进口袋的代理了。

这是 Codex 一个很关键、但也姗姗来迟的补丁。

Codex 跨设备远程控制示意图

从代码字符串能看出什么

挖出来的字符串信息量不小。它不是简单的"远程查看"那种只读模式,而是一整套操作链路:

  • 设备发现:手机端能识别桌面上正在运行的 Codex 实例
  • 会话恢复:断线、切后台后,可以无缝把上下文接回来
  • 异常重连:网络抖动时不丢任务
  • 版本校验:如果桌面 Codex 版本太旧,应用会直接弹窗要求重启升级

更值得注意的是远程端的指令体系。代码中出现了 Type $ for skills and MCP servers, or @ for plugins 这样的提示,以及 /help/status/plan 等命令。

这意味着手机端不是个阉割版界面,而是把 CLI 那一套交互原语原封不动搬了过来。MCP 服务器、技能、插件——这些桌面 Codex 上能调的东西,在手机上一样能调。对那些已经把 Codex 接入了一堆 MCP 工具的开发者来说,这个差别非常大。

为什么现在才做

说白了,是被 Claude 逼的。

在跨设备这件事上,Anthropic 一直走在前面。Claude Code 早就支持开发者用手机连回 PC 上的本地会话——出门吃个饭,发现 CI 挂了,掏出手机让 Claude 接着排查,这个工作流早就跑通了。Reddit 上 r/codex 和 r/OpenAI 板块里催 OpenAI 跟进的帖子已经堆了大半年,有人甚至自己用 Mosh + SSH 撸了个本地终端来桥接 Codex CLI。

而 Codex 的远程认证体验一直被吐槽。社区里有篇高赞帖子直接开骂:"其实只要生成一个授权码、让远程实例像 Claude Code 那样授权就行,他们偏不,非要一个该死的 callback URL 加浏览器访问。"——容器里、远程服务器上想用 Codex,得绕一大圈。

所以这次 OpenAI 把远程控制原生化,不是新创意,是补课。

这件事放在最近的 Codex 版图里看

光盯着这一个功能没意思。把它放进 OpenAI 这两周的动作里,能看出更清晰的脉络。

前不久 OpenAI 刚发了 GPT-5.3-Codex,这是它目前最强的代理编程模型,OSWorld-Verified 跑到 64.7 分(前代 38.2 分),完成同等任务的 token 消耗减半。更重要的是,这是 OpenAI 第一个在自身研发流程里"上岗"的模型——内部研究团队用它监控训练、调试基础设施、分析会话日志,工程团队用它优化代理工具链。

紧接着,OpenAI 把 Codex 的核心架构 App Server 开源了。这是一套基于 JSON-RPC 的双向通信协议,自底向上定义了三层对话原语:

  • Item:最小交互单元,比如一条消息、一次工具调用,有完整的"开始→流式更新→完成"生命周期
  • Turn:一次完整的代理工作回合,比如"修这个 bug"包含读代码、思考、改代码、解释
  • Thread:持久化会话容器,存全部历史,支持跨设备恢复

看到第三层了吗?Thread 本身就是为跨设备恢复设计的。也就是说,远程控制这个功能不是临时加的补丁,而是 App Server 架构早就预留好的口子。网页端的 Codex 已经在用:浏览器通过 HTTP + SSE 连云端容器,关掉标签页后台还在跑。手机端无非是把同样的 Thread 模型搬到移动设备上。

这套架构的好处是,无论 CLI、VS Code 插件、macOS 桌面应用还是即将到来的手机端,共享同一套核心逻辑,不用每个端重造轮子。OpenAI Hub 这边也是因为兼容了 OpenAI 的 API 形态,开发者拿一个 Key 就能在自己的工具里调 GPT-5.3-Codex 这类模型,不用为不同模型来回切 SDK。

远程控制要解决的真实痛点

把开发者的工作流摊开看,Codex 远程能力补上的是这几个场景:

长任务监控。GPT-5.3-Codex 已经能跑那种"几百万 token 自主迭代一个游戏"的长任务,开发者根本没必要守在屏幕前。手机能查状态、能在卡住时下条新指令,这是刚需。

异常介入。代理跑了一半遇到需要确认的操作(删文件、推主分支、调付费 API),手机上一个点击就能批准或拒绝,比 Claude Code 的体验差距就此抹平。

多设备切换。早上在公司起一个重构任务,午饭路上看进度,晚上回家用 MacBook 接着改——Thread 这层抽象让这件事在协议层就成立了。

容器/远程开发机。这是社区呼声最高的场景。开发者在云上跑开发容器,本地只是个瘦客户端,原来的 callback URL 认证流程在容器里基本走不通。新的远程会话机制如果做得彻底,容器场景应该能顺带解决。

还有几个没说清的问题

但代码挖掘只能告诉我们功能存在,告诉不了我们细节。几个值得追的悬念:

第一,安全模型怎么设计。手机端能不能执行高危操作(rm、git push --force、调外部 API)?是无差别授权还是分级确认?Claude Code 在这块用的是会话级权限白名单,OpenAI 会不会照搬还不好说。

第二,端到端加密。手机和桌面之间走 OpenAI 服务器中转,还是端到端建立隧道?前者方便但代码会泄漏给云端,后者更难做但企业用户会更买账。鉴于 Frontier 平台主打的就是企业级 AI 代理协作,OpenAI 大概率得给个企业级方案。

第三,离线/弱网体验。Mosh 那种容忍掉线的协议在移动场景几乎是必需的,OpenAI 的实现走 SSE 还是更鲁棒的方案,决定了地铁里能不能用。

第四,iOS 版本时间表。挖出来的是安卓代码,iOS 端通常和安卓同节奏推送,但苹果对后台执行的限制更严,桌面控制权移交可能要走不同的实现路径。

一点判断

远程控制这个功能本身不算革命性——Claude 已经做了,社区方案也跑了一阵——但放在 Codex 当下的位置上,它的意义在于"补齐最后一块拼图"。

GPT-5.3-Codex 把模型能力推到了能独立跑长任务的水平,App Server 把架构层的跨端基础打好了,Frontier 把企业级部署框架立起来了。剩下的问题就是:开发者作为这个代理系统的"指挥官",能不能随时随地下指令、看进度、做决策。

手机远程控制就是回答这个问题的。

这也意味着 Codex 的产品形态正在彻底变。它不再是 IDE 里的一个补全插件,也不只是 CLI 里的一条命令——它是一个"长期在线的代理",桌面、手机、网页只是接入它的不同入口。OpenAI 在重新定义 AI 编程工具的形态,而且是按"AI 同事"而不是"AI 工具"的逻辑在定义。

至于 Anthropic 那边怎么接招,估计也快了。这场围绕代理编程体验的拉锯战,2026 年才刚开始打。

参考来源