开源 AI Agent 项目 OpenSquilla 近日发布 0.4.0 版本，核心更新是推出全新的 coding 编码工作流模式，并首次为 AI 编码引入「自我验证」机制，让 Agent 在生成代码后自主校验、纠错。

OpenSquilla 0.4.0 发布：AI 编码 Agent 首引入「自我验证」机制

2026 年 6 月底，开源 AI Agent 项目 OpenSquilla 正式发布 0.4.0 版本。本次更新最受关注的两个核心变化是：推出全新的编码工作流（coding 模式），以及首次为 AI 编码引入「自我验证（self-verification）」机制。这意味着在 Claude Code、Codex、OpenCode 等 Coding Agent 已经成为一线生产力工具的当下，开源社区在「如何让 Agent 写出更可靠的代码」这条路上又向前迈出了关键一步。

OpenSquilla 0.4.0 版本发布主视觉，展示 coding 模式与自我验证流程图

一、OpenSquilla 是什么：从「省 token 的 Harness」说起

要理解 0.4.0 这次更新的意义，先要回到 OpenSquilla 这个项目本身。

OpenSquilla 是一个 开源、可本地运行的 AI Agent 框架，使用 Python 编写，定位是「token-efficient（省 token）的微内核 AI Agent」。在过去半年里，它在中文开发者社区被频繁讨论的一个标签是——「拯救烧 token 烧到绝望的 Agent 们」。

它的几个关键特征：

微内核架构（microkernel）：核心 Harness 极小，所有能力都以「技能（skill）」的形式按需加载。社区版本已经识别出超过 134 个技能，覆盖文件操作、代码搜索、Shell 调用、Git 操作、Web 抓取等常见 Agent 场景。
多入口适配：同一个 Agent Core，可以同时跑在 CLI、Web UI 和聊天频道（IM/聊天机器人）中。
全平台运行：支持 Windows、macOS、Linux，提供 Windows 便携版（portable）和 uv tool install 的快速终端安装方式，也支持从源码直接 git clone 跑起来。
赛道同行者：在定位上，OpenSquilla 通常被拿来与 OpenClaw、Hermes Agent 等开源 Agent 项目对比，三者共同构成了 2026 年「本地可跑、可定制、可审计」的开源 Agent 第一梯队。

在 0.4.0 之前，OpenSquilla 的稳定版本一直停留在 0.3.1。0.3.x 系列主要解决的是「Agent 太烧 token」这个老大难问题——通过微内核 + 按需加载技能 + 上下文压缩，把一次复杂任务的 token 消耗压到同类方案的 1/3 到 1/2。

而 0.4.0，则把焦点从「省」转向了「准」。

二、0.4.0 的核心更新：coding 模式与自我验证

1. 全新的 coding 工作流模式

0.4.0 引入了一个专门面向软件工程任务的 coding 模式。这是一个预编排的工作流（workflow），而不是简单地把若干技能拼在一起。

在 coding 模式下，OpenSquilla 会按照下面这条主线推进一次编码任务：

理解阶段（Understand）：读取相关源码、README、测试，构建任务的上下文地图。
规划阶段（Plan）：生成一份可被人类审阅的修改计划，包括要动的文件、要新增的测试。
修改阶段（Edit）：按计划逐文件修改，遵守「读—改—验」的小步循环。
验证阶段（Verify）：这是 0.4.0 新增的核心环节，由 Agent 自己来做。
汇报阶段（Report）：输出 diff、测试结果、剩余风险点。

和过去「让 LLM 直接写代码 + 人类肉眼 review」的粗放模式相比，coding 模式更像是把一个初级工程师的标准作业流程写进了 Harness 里。

OpenSquilla coding 模式工作流示意图，从 Understand 到 Report 的五阶段流程

2. 首次引入「自我验证」机制

0.4.0 最大的亮点，是首次把 自我验证（self-verification） 作为一等公民引入 AI 编码流程。

它的基本思路并不复杂，但工程化做扎实并不容易。可以理解成：Agent 自己生成代码后，强制走一遍「敌对式复核」。

具体来说，自我验证包含但不限于这几层：

运行验证：能跑测试就跑测试，跑不了就尝试构造最小可执行片段（minimal repro），用真实运行结果替代「看起来对」的直觉。
逆向解释：让 Agent 用自然语言重新解释一遍自己刚写的 diff，并和原始任务描述对照，检查是否「答非所问」。
对抗式质疑（adversarial verify）：派出独立的「质疑者」角色，默认假设代码是错的，必须给出能说服质疑者的证据才算通过。
覆盖度检查：检查任务里提到的每一条需求是否都有对应的代码改动或测试覆盖，避免「漏做一半」。
副作用扫描：扫一遍是否动了不该动的文件、是否引入了多余的依赖、是否破坏了既有 API。

这套机制和近年来在 Agentic Workflow 中被反复验证有效的「思考 → 分析 → 自我验证 → 自我纠正」范式一脉相承——已经有团队用类似思路在生产环境里跑出了「自动提交 72 个安全补丁」这种结果。OpenSquilla 0.4.0 把这套范式内化进了 Harness 本身，而不是让每个使用者自己再去拼。

3. 让能力「沉淀进 Harness」

OpenSquilla 团队在 0.4.0 的设计说明里反复强调一个观点：

形成某种自我进化的机制，让这些能力最终内化进 Harness 里。

这句话其实是整个 0.4 系列的纲领。过去开发者们写 Prompt、攒 skill、调 workflow，很多经验都散落在各人的 dotfiles 和飞书文档里。0.4.0 通过 coding 模式 + 自我验证，把「好的编码习惯」从「用户需要记得的提示词」变成了「Harness 默认就会做的事」。

三、为什么「自我验证」对 Coding Agent 这么关键？

时间来到 2026 年中，软件工程领域已经全面引入 Coding Agent，一线生产力工具排名靠前的有 Claude Code、Codex、OpenCode，本地端通过 VS Code 调用这些 Agent 也已是相当主流的开发姿势。

但凡用过一段时间 Coding Agent 的人，大概都踩过同一个坑：

代码看起来漂亮，跑起来报错；
单元测试自己写自己过，关键场景根本没覆盖；
改了 A 文件，悄悄破坏了 B 文件；
漏掉用户需求里最重要的那一条。

这些问题的根源，并不是 LLM「不够聪明」，而是缺一个强制的、不可绕过的校验环节。在传统软件工程里，这个环节叫 Code Review + CI；在 AI 编码场景里，过去一直依赖人类用户充当这道闸门。

OpenSquilla 0.4.0 想做的事情，就是把这道闸门部分地交还给 Agent 自己：

它不替代人类 review，但能把「明显错」「明显漏」「明显多」的内容拦在 Agent 输出之前；
它让 Agent 输出之前就先经历一轮「自我反驳」，降低过度自信带来的副作用；
它让 token 花在更有价值的地方——验证一次的成本，往往远低于人类发现问题后重新让 Agent 改一次。

这也呼应了 OpenSquilla 一直以来的标签：token-efficient。自我验证表面上多花了 token，实际上是把「事后返工」的高额成本换成了「事中校验」的低额成本。

自我验证机制示意图，展示 Agent 生成代码后的对抗式复核流程

四、安装与上手：保持一贯的「开箱即跑」

0.4.0 在安装方式上延续了 0.3.x 的几条路径，使用者按需挑一种即可：

| 方式 | 适用人群 | 说明 | | --- | --- | --- | | Quick terminal install（推荐） | 任意 OS 的最终用户 | 用 uv tool install 一行装好发布的 wheel | | Windows portable | Windows 用户 | 预编译的便携启动器，免安装 | | Install from source | 跟随 main 分支的用户 | 从 git checkout 跑，但不编辑源码 | | Develop from source | 想改源码贡献的开发者 | 从 git checkout 跑，并可直接编辑 |

推荐的快速安装命令（终端中执行）：

# 推荐路径：通过 uv 安装预编译 wheel
uv tool install opensquilla

# 安装完成后，如果 PATH 没刷新，开一个新终端
opensquilla --help

# 进入 coding 模式
opensquilla coding

从源码体验最新特性：

git clone https://github.com/opensquilla/opensquilla.git
cd opensquilla
uv sync
uv run opensquilla coding

注意：Quick terminal install 路径不会自动把可执行文件加入 PATH，如果命令找不到，重开一个终端即可。

五、和 OpenClaw、Hermes Agent 的差异化定位

在中文开发者社区，OpenSquilla 经常被拿来和 OpenClaw、Hermes Agent 对比。从 0.4.0 这个版本可以更清楚地看出三者的差异化路线：

OpenClaw：偏「全能型」，技能丰富、生态活跃，更接近一个「装什么都能跑」的通用 Agent。
Hermes Agent：偏「消息驱动 + 多渠道」，强项是和 IM、邮件、Webhook 等通道深度整合。
OpenSquilla：偏「省 token + 工程严谨」，强项是微内核 + 工作流 + 现在的自我验证。

如果你是一个把 Coding Agent 用在正经项目里、对成本和正确性都有要求的开发者，0.4.0 之后的 OpenSquilla 会是一个比较舒服的选择。

六、写在最后：Harness 的能力，正在被「内化」

2026 年的 AI Coding 赛道，竞争重心已经悄悄从「谁家模型更强」变成「谁家 Harness 更懂工程」。Claude Code、Codex 这样的闭源方案在产品打磨上一路领先，而 OpenSquilla 这类开源项目则提供了另一种可能性：

可本地化：代码、数据、Prompt 都在自己机器上；
可审计：每一条 skill、每一段 workflow 都能翻源码；
可演化：社区贡献的好习惯，可以直接变成下一个版本的默认行为。

0.4.0 的「coding 模式 + 自我验证」就是这种「能力内化进 Harness」哲学的一次具体落地。对于正在被 token 账单和 Agent 错误折磨的开发者来说，这一版值得认真试一试。

参考来源

OpenSquilla GitHub 仓库：项目源码、Release Notes 与安装方式的官方入口，可查阅 0.4.0 的完整变更。
热门 Harness 项目 OpenSquilla：拯救烧 token 烧到绝望的 Agent 们 - 知乎：对 OpenSquilla 设计哲学与「能力内化进 Harness」思路的中文长文解读。

OpenSquilla 0.4.0 发布：AI 编码 Agent 首引入「自我验证」机制

OpenSquilla 0.4.0 发布：AI 编码 Agent 首引入「自我验证」机制

一、OpenSquilla 是什么：从「省 token 的 Harness」说起

二、0.4.0 的核心更新：coding 模式与自我验证

1. 全新的 coding 工作流模式

2. 首次引入「自我验证」机制

3. 让能力「沉淀进 Harness」

三、为什么「自我验证」对 Coding Agent 这么关键？

四、安装与上手：保持一贯的「开箱即跑」

五、和 OpenClaw、Hermes Agent 的差异化定位

六、写在最后：Harness 的能力，正在被「内化」

参考来源

相关推荐

华为开源盘古2.0：920亿参数Flash版今日上线

AWS给Anthropic的账单，从算力改成了Token

美团 LongCat-2.0 开源：万亿参数死磕 Agentic Coding

联系我们