Codeg 多智能体 Skill 实战:让 Codex 自动审 Claude Code 的活

行业快讯

一位开发者在 linux.do 分享了 Codeg 多智能体协同下的 skill 案例,让 Codex 在同一会话内自动 review Claude Code 的产出并循环修复,把以往手动来回切换的环节直接收敛掉。

一个 skill,让两个 AI 编程助手在同一个会话里互相审稿

这两天 linux.do 上有篇帖子在开发者圈里被反复提起:一位用户晒出了自己在 Codeg 里写的一个 skill——sub-agent-review-loop,开启多智能体协同后,Claude Code 写完代码会自动喊 Codex 过来 review,发现问题直接修,修完再交给 Codex 二审,循环到 Codex 判定 "production-ready" 才算交卷。

听起来不复杂,但触动开发者的是它解决的那个具体痛点:以前你得自己在两个 AI 工具之间来回搬运 diff、复制 prompt、贴回意见,现在这套动作让 skill 自己跑完了。

这事值得说一说。它不是什么新模型发布,也不是什么概念性的多 Agent 框架,而是一个非常落地的工程化案例——多智能体协同从 demo 阶段走到 "我每天写代码都用得上" 的样子。

Codeg 多智能体协同工作区界面,左侧是 Claude Code 会话,右侧是 Codex 审阅反馈,中部展示 skill 触发的 review loop 流程图

skill 干了什么:把 review loop 写成确定性流程

先把这个 skill 的内容贴出来看看(节选自原帖):

---
name: sub-agent-review-loop
description: Use when any task could modify code, tests, config, schemas, migrations, deps, build/deploy scripts, artifacts, or behavior before completion
---

# Sub-Agent Review Loop

## Overview

Use Codex as an independent reviewer after work that can modify artifacts or behavior. Loop until the latest result is production-ready.

**Core principle:** Work is not complete until Codex approves the latest fixed version as production-ready.

## Required Loop

1. Finish the implementation and run the relevant local checks.
2. Call Codeg MCP `delegate_to_agent` with `agent_type: "codex"`, absolute `working_dir`, and a self-contained `task` containing the request, changed files or diff/SHAs, checks run, and constraints.
3. Require this quality bar: **production-ready**

关键设计有几处。

触发条件写得很死。 description 里明确列了一长串触发场景:动到代码、测试、配置、schema、迁移脚本、依赖、构建/部署脚本、产物或行为,任何一个沾边就走 review loop。这不是模糊的 "觉得需要的时候",而是工程意义上的硬约束——只要落盘的东西可能影响线上行为,就必须过 Codex 这一关。

Codex 不是建议者,是 gate keeper。 loop 的 exit condition 写得很狠:"Work is not complete until Codex approves the latest fixed version as production-ready"。Claude Code 自己说改完了不算,得 Codex 点头。这跟传统的 self-critique(让模型自己检查自己)有本质区别——评审方是另一个独立模型、独立上下文,不会被 Claude Code 自己的推理路径带偏。

delegate 的载荷是结构化的。 调用 Codeg MCP 的 delegate_to_agent 时,要求传入绝对路径的 working_dir、自包含的 task 描述、改动文件清单或 diff/SHA、本地已跑过的检查、以及约束条件。这意味着 Codex 接到任务时拿到的是完整上下文,不需要去猜 Claude Code 在干嘛。

这个设计的价值,在于把 "两个 AI 互相 review" 这件以往依赖人类胶水的事,变成了 skill 文件里几行声明式描述。

为什么是 Codex 来审 Claude Code

开发者圈里有个共识:Claude 系列在长上下文工程任务、复杂重构上手感更顺,但偶尔会出现自信过头、跳过边界条件的情况;Codex(GPT-5 系的代码推理)在挑刺、找逻辑漏洞、抠测试覆盖上更冷静。两者搭配是有互补性的——一个负责往前推进,一个负责往后看。

这个 skill 案例其实把这个直觉做了产品化。原帖作者也提了一句:"如果使用其它子智能体 review 的话,可以把 skill 里面的 codex 替换一下"——也就是说这是个开放架构,谁审谁不是钉死的,按你对模型特性的理解来配。

这点很重要。多智能体协同这个概念过去两年被讲得太多,但落到工程实践里,大部分方案要么是把多个 Agent 串成 pipeline(缺乏弹性),要么搞成黑盒 supervisor 调度(不可控)。Codeg 这套 skill + MCP 的玩法走的是另一条路:协同关系由开发者自己用 skill 描述,谁该在什么时候被 delegate 出去,是配置出来的,不是黑魔法。

解决的真正痛点:人作为胶水的疲劳

用过 Claude Code 配合 Codex(或者反过来)的开发者大概都有过这个体感:

你在 Claude Code 里让它实现一个功能,它写完了,你不放心,复制 diff 到 Codex CLI 让它审;Codex 列了三条建议,你再复制回 Claude Code,让它针对这三条修;修完再 diff,再过 Codex……一两轮还行,三轮以上人就开始焦虑——上下文在两个工具之间断裂,你得不停地组织 prompt、贴文件路径、解释背景。

这个过程的本质是,人类成了 AI 之间的消息总线,而且是个高延迟、低带宽、容易出错的总线。

sub-agent-review-loop 这个 skill 把消息总线换成了 Codeg MCP。Claude Code 在自己的会话里直接通过 delegate_to_agent 把任务推给 Codex,Codex 跑完了把结论推回来,Claude Code 根据结论决定继续修还是收工。整个过程在一个会话上下文里完成,开发者只需要看最终结果。

原帖作者用了 "效率拉满" 四个字来形容这个变化,不夸张。从 "我得在两个终端窗口之间手动同步状态" 到 "我说一句话,两个 Agent 自己谈完了告诉我结果",这是质变。

Codeg 是什么:把分散的编码 Agent 收到一个工作区

稍微补一点 Codeg 本身的背景。这是个今年 4 月开始进入开发者视野的产品,定位是 企业级多智能体编程工作区——把 Claude Code、Codex CLI、Gemini CLI、OpenCode、Cline 这些本地 AI 编程工具的会话日志统一聚合到一个界面里,支持桌面应用、独立服务器和 Docker 三种部署。

它的几个能力跟今天这个 skill 案例直接相关:

  • 多智能体会话聚合:自动从 ~/.claude/projects~/.cline/data/tasks 这些路径摄取本地对话日志,结构化呈现历史交互。这意味着不同模型、不同 CLI 工具产生的痕迹是可被检索、可被 skill 利用的。
  • MCP 与 skill 管理:内置 MCP 服务器扫描器和注册表,全局和项目级管理 skill。今天这个 review loop skill 就是直接通过 skill 管理面板加进去的。
  • 并行 Git Worktree:同一项目同时跑多个分支,不同 Agent 部署到独立 worktree,避免 stash/checkout 互相打架。
  • 远程聊天频道:通过 Telegram、Lark、iLink(微信) bridge 出去,可以在手机上看 Agent 跑到哪一步,需要批准敏感操作时直接在聊天窗口确认。

架构上是 Rust 核心(Tauri 2/Axum)+ React 19/Next.js 16 前端,数据走 SeaORM 落到本地 SQLite,本地优先。这套技术选型对开发者来说友好,意味着所有上下文都在你机器上,不会偷偷上云。

这类 skill 案例为什么值得追:可复制的工程范式

这次曝光的 review loop skill 之所以引发讨论,不只是因为它好用,更因为它揭示了一种 可被广泛复制的工程范式

任何 "应该有人审一眼" 的环节都可以被 skill 化。

顺着这个思路往下推,开发者完全可以照葫芦画瓢写出一堆 skill:

  • db-migration-guard:动到数据库迁移脚本时,自动 delegate 给另一个 Agent 检查向后兼容、锁表风险、回滚路径。
  • security-review-loop:触发条件是改到认证、授权、加密相关代码,让一个专门提示词调教过的 Agent 过一遍 OWASP 清单。
  • test-coverage-gate:写完功能后,让 reviewer Agent 检查测试是否覆盖了边界条件,没覆盖就要求补。
  • doc-sync-check:API 改动后,自动检查相关文档是否需要更新,不一致就生成 diff 提示。

这些场景过去要么靠 CI 阶段的静态规则(粒度粗、误报多),要么靠人类 reviewer(注意力有限、易疲劳)。skill + 多 Agent delegation 给了第三个选项:在创作阶段就嵌入语义级的把关流程,由另一个独立模型实时执行。

几个值得提醒的点

当然,这套玩法不是没有代价。

Token 消耗会显著增加。 一次任务原本只需要 Claude Code 跑一遍,现在要 Claude Code 写、Codex 审、Claude Code 修、Codex 再审……review loop 跑三轮,token 至少翻三倍。如果用的是按调用计费的 API,账单会有感。

循环不收敛的风险。 skill 写的是 "Loop until production-ready",但万一两个 Agent 对什么算 production-ready 理解不一致,可能会陷入反复修改的死循环。生产实践里建议加一个 max iterations 的兜底(比如最多 5 轮,超过就要求人工介入)。

delegation 的载荷质量决定上限。 如果 Claude Code 传给 Codex 的 task 描述里漏了关键约束,Codex 的 review 就会跑偏。这个 skill 的设计已经强调了 "self-contained task",但实际效果取决于 Claude Code 当时对上下文的把握。

顺带一提,这种多模型协同的方式对 API 接入也提出了要求——你需要同时能调 Claude、Codex、Gemini 这些不同家的模型。OpenAI Hub 这类聚合平台一个 Key 调所有主流模型、兼容 OpenAI 格式、国内直连的特性,在这种场景下就比较合用,不用为了调 Codex 和 Claude 在两边各开一套账号管两套额度。

一个信号:AI 编程进入 "协议层" 阶段

往后看一步,今天这个 skill 案例其实在说一件更大的事:AI 编程工具的竞争重心,正在从单点模型能力转向协同协议层。

2024 年开发者关心的是哪个模型写代码更准。2025 年关心的是哪个 Agent 框架(Claude Code、Codex、Cursor)体验更好。到了 2026 年,很多人发现单一 Agent 的天花板就在那,真正能拉开生产力差距的,是这些 Agent 之间怎么协同——谁负责什么、什么时候 delegate 给谁、上下文怎么传递、结果怎么裁决。

MCP 协议在这一层提供了基础设施,Codeg 这类工作区在这一层提供了组织界面,skill 这种声明式描述在这一层提供了配置语法。当三者凑齐,多智能体协同从论文里的概念变成了开发者每天工程实践的一部分。

linux.do 这位开发者分享的 skill 看起来只是一个小 trick,但它示范了一个 "以后开发应该这么干" 的样本。复刻起来不难,下载 Codeg、配好 Claude Code 和 Codex、把 skill 贴进 skill 管理面板就行。值得花十分钟试一下。

参考来源