OpenSquilla 0.4.0 发布:AI 编码 Agent 首引入「自我验证」机制

开源 AI Agent 项目 OpenSquilla 近日发布 0.4.0 版本,核心更新是推出全新的 coding 编码工作流模式,并首次为 AI 编码引入「自我验证」机制,让 Agent 在生成代码后自主校验、纠错。
OpenSquilla 0.4.0 发布:AI 编码 Agent 首引入「自我验证」机制
2026 年 6 月底,开源 AI Agent 项目 OpenSquilla 正式发布 0.4.0 版本。本次更新最受关注的两个核心变化是:推出全新的编码工作流(coding 模式),以及首次为 AI 编码引入「自我验证(self-verification)」机制。这意味着在 Claude Code、Codex、OpenCode 等 Coding Agent 已经成为一线生产力工具的当下,开源社区在「如何让 Agent 写出更可靠的代码」这条路上又向前迈出了关键一步。

一、OpenSquilla 是什么:从「省 token 的 Harness」说起
要理解 0.4.0 这次更新的意义,先要回到 OpenSquilla 这个项目本身。
OpenSquilla 是一个 开源、可本地运行的 AI Agent 框架,使用 Python 编写,定位是「token-efficient(省 token)的微内核 AI Agent」。在过去半年里,它在中文开发者社区被频繁讨论的一个标签是——「拯救烧 token 烧到绝望的 Agent 们」。
它的几个关键特征:
- 微内核架构(microkernel):核心 Harness 极小,所有能力都以「技能(skill)」的形式按需加载。社区版本已经识别出超过 134 个技能,覆盖文件操作、代码搜索、Shell 调用、Git 操作、Web 抓取等常见 Agent 场景。
- 多入口适配:同一个 Agent Core,可以同时跑在 CLI、Web UI 和聊天频道(IM/聊天机器人)中。
- 全平台运行:支持 Windows、macOS、Linux,提供 Windows 便携版(portable)和
uv tool install的快速终端安装方式,也支持从源码直接git clone跑起来。 - 赛道同行者:在定位上,OpenSquilla 通常被拿来与 OpenClaw、Hermes Agent 等开源 Agent 项目对比,三者共同构成了 2026 年「本地可跑、可定制、可审计」的开源 Agent 第一梯队。
在 0.4.0 之前,OpenSquilla 的稳定版本一直停留在 0.3.1。0.3.x 系列主要解决的是「Agent 太烧 token」这个老大难问题——通过微内核 + 按需加载技能 + 上下文压缩,把一次复杂任务的 token 消耗压到同类方案的 1/3 到 1/2。
而 0.4.0,则把焦点从「省」转向了「准」。
二、0.4.0 的核心更新:coding 模式与自我验证
1. 全新的 coding 工作流模式
0.4.0 引入了一个专门面向软件工程任务的 coding 模式。这是一个预编排的工作流(workflow),而不是简单地把若干技能拼在一起。
在 coding 模式下,OpenSquilla 会按照下面这条主线推进一次编码任务:
- 理解阶段(Understand):读取相关源码、README、测试,构建任务的上下文地图。
- 规划阶段(Plan):生成一份可被人类审阅的修改计划,包括要动的文件、要新增的测试。
- 修改阶段(Edit):按计划逐文件修改,遵守「读—改—验」的小步循环。
- 验证阶段(Verify):这是 0.4.0 新增的核心环节,由 Agent 自己来做。
- 汇报阶段(Report):输出 diff、测试结果、剩余风险点。
和过去「让 LLM 直接写代码 + 人类肉眼 review」的粗放模式相比,coding 模式更像是把一个初级工程师的标准作业流程写进了 Harness 里。

2. 首次引入「自我验证」机制
0.4.0 最大的亮点,是首次把 自我验证(self-verification) 作为一等公民引入 AI 编码流程。
它的基本思路并不复杂,但工程化做扎实并不容易。可以理解成:Agent 自己生成代码后,强制走一遍「敌对式复核」。
具体来说,自我验证包含但不限于这几层:
- 运行验证:能跑测试就跑测试,跑不了就尝试构造最小可执行片段(minimal repro),用真实运行结果替代「看起来对」的直觉。
- 逆向解释:让 Agent 用自然语言重新解释一遍自己刚写的 diff,并和原始任务描述对照,检查是否「答非所问」。
- 对抗式质疑(adversarial verify):派出独立的「质疑者」角色,默认假设代码是错的,必须给出能说服质疑者的证据才算通过。
- 覆盖度检查:检查任务里提到的每一条需求是否都有对应的代码改动或测试覆盖,避免「漏做一半」。
- 副作用扫描:扫一遍是否动了不该动的文件、是否引入了多余的依赖、是否破坏了既有 API。
这套机制和近年来在 Agentic Workflow 中被反复验证有效的「思考 → 分析 → 自我验证 → 自我纠正」范式一脉相承——已经有团队用类似思路在生产环境里跑出了「自动提交 72 个安全补丁」这种结果。OpenSquilla 0.4.0 把这套范式内化进了 Harness 本身,而不是让每个使用者自己再去拼。
3. 让能力「沉淀进 Harness」
OpenSquilla 团队在 0.4.0 的设计说明里反复强调一个观点:
形成某种自我进化的机制,让这些能力最终内化进 Harness 里。
这句话其实是整个 0.4 系列的纲领。过去开发者们写 Prompt、攒 skill、调 workflow,很多经验都散落在各人的 dotfiles 和飞书文档里。0.4.0 通过 coding 模式 + 自我验证,把「好的编码习惯」从「用户需要记得的提示词」变成了「Harness 默认就会做的事」。
三、为什么「自我验证」对 Coding Agent 这么关键?
时间来到 2026 年中,软件工程领域已经全面引入 Coding Agent,一线生产力工具排名靠前的有 Claude Code、Codex、OpenCode,本地端通过 VS Code 调用这些 Agent 也已是相当主流的开发姿势。
但凡用过一段时间 Coding Agent 的人,大概都踩过同一个坑:
- 代码看起来漂亮,跑起来报错;
- 单元测试自己写自己过,关键场景根本没覆盖;
- 改了 A 文件,悄悄破坏了 B 文件;
- 漏掉用户需求里最重要的那一条。
这些问题的根源,并不是 LLM「不够聪明」,而是缺一个强制的、不可绕过的校验环节。在传统软件工程里,这个环节叫 Code Review + CI;在 AI 编码场景里,过去一直依赖人类用户充当这道闸门。
OpenSquilla 0.4.0 想做的事情,就是把这道闸门部分地交还给 Agent 自己:
- 它不替代人类 review,但能把「明显错」「明显漏」「明显多」的内容拦在 Agent 输出之前;
- 它让 Agent 输出之前就先经历一轮「自我反驳」,降低过度自信带来的副作用;
- 它让 token 花在更有价值的地方——验证一次的成本,往往远低于人类发现问题后重新让 Agent 改一次。
这也呼应了 OpenSquilla 一直以来的标签:token-efficient。自我验证表面上多花了 token,实际上是把「事后返工」的高额成本换成了「事中校验」的低额成本。

四、安装与上手:保持一贯的「开箱即跑」
0.4.0 在安装方式上延续了 0.3.x 的几条路径,使用者按需挑一种即可:
| 方式 | 适用人群 | 说明 |
| --- | --- | --- |
| Quick terminal install(推荐) | 任意 OS 的最终用户 | 用 uv tool install 一行装好发布的 wheel |
| Windows portable | Windows 用户 | 预编译的便携启动器,免安装 |
| Install from source | 跟随 main 分支的用户 | 从 git checkout 跑,但不编辑源码 |
| Develop from source | 想改源码贡献的开发者 | 从 git checkout 跑,并可直接编辑 |
推荐的快速安装命令(终端中执行):
# 推荐路径:通过 uv 安装预编译 wheel
uv tool install opensquilla
# 安装完成后,如果 PATH 没刷新,开一个新终端
opensquilla --help
# 进入 coding 模式
opensquilla coding
从源码体验最新特性:
git clone https://github.com/opensquilla/opensquilla.git
cd opensquilla
uv sync
uv run opensquilla coding
注意:Quick terminal install 路径不会自动把可执行文件加入 PATH,如果命令找不到,重开一个终端即可。
五、和 OpenClaw、Hermes Agent 的差异化定位
在中文开发者社区,OpenSquilla 经常被拿来和 OpenClaw、Hermes Agent 对比。从 0.4.0 这个版本可以更清楚地看出三者的差异化路线:
- OpenClaw:偏「全能型」,技能丰富、生态活跃,更接近一个「装什么都能跑」的通用 Agent。
- Hermes Agent:偏「消息驱动 + 多渠道」,强项是和 IM、邮件、Webhook 等通道深度整合。
- OpenSquilla:偏「省 token + 工程严谨」,强项是微内核 + 工作流 + 现在的自我验证。
如果你是一个把 Coding Agent 用在正经项目里、对成本和正确性都有要求的开发者,0.4.0 之后的 OpenSquilla 会是一个比较舒服的选择。
六、写在最后:Harness 的能力,正在被「内化」
2026 年的 AI Coding 赛道,竞争重心已经悄悄从「谁家模型更强」变成「谁家 Harness 更懂工程」。Claude Code、Codex 这样的闭源方案在产品打磨上一路领先,而 OpenSquilla 这类开源项目则提供了另一种可能性:
- 可本地化:代码、数据、Prompt 都在自己机器上;
- 可审计:每一条 skill、每一段 workflow 都能翻源码;
- 可演化:社区贡献的好习惯,可以直接变成下一个版本的默认行为。
0.4.0 的「coding 模式 + 自我验证」就是这种「能力内化进 Harness」哲学的一次具体落地。对于正在被 token 账单和 Agent 错误折磨的开发者来说,这一版值得认真试一试。
参考来源
- OpenSquilla GitHub 仓库:项目源码、Release Notes 与安装方式的官方入口,可查阅 0.4.0 的完整变更。
- 热门 Harness 项目 OpenSquilla:拯救烧 token 烧到绝望的 Agent 们 - 知乎:对 OpenSquilla 设计哲学与「能力内化进 Harness」思路的中文长文解读。


