AI 快讯OpenSquilla 0.4.0 发布:AI 编码 Agent 首引入「自我验证」机制
行业快讯

OpenSquilla 0.4.0 发布:AI 编码 Agent 首引入「自我验证」机制

2026-06-30T10:08:59.780Z
OpenSquilla 0.4.0 发布:AI 编码 Agent 首引入「自我验证」机制

开源 AI Agent 项目 OpenSquilla 近日发布 0.4.0 版本,核心更新是推出全新的 coding 编码工作流模式,并首次为 AI 编码引入「自我验证」机制,让 Agent 在生成代码后自主校验、纠错。

OpenSquilla 0.4.0 发布:AI 编码 Agent 首引入「自我验证」机制

2026 年 6 月底,开源 AI Agent 项目 OpenSquilla 正式发布 0.4.0 版本。本次更新最受关注的两个核心变化是:推出全新的编码工作流(coding 模式),以及首次为 AI 编码引入「自我验证(self-verification)」机制。这意味着在 Claude Code、Codex、OpenCode 等 Coding Agent 已经成为一线生产力工具的当下,开源社区在「如何让 Agent 写出更可靠的代码」这条路上又向前迈出了关键一步。

OpenSquilla 0.4.0 版本发布主视觉,展示 coding 模式与自我验证流程图

一、OpenSquilla 是什么:从「省 token 的 Harness」说起

要理解 0.4.0 这次更新的意义,先要回到 OpenSquilla 这个项目本身。

OpenSquilla 是一个 开源、可本地运行的 AI Agent 框架,使用 Python 编写,定位是「token-efficient(省 token)的微内核 AI Agent」。在过去半年里,它在中文开发者社区被频繁讨论的一个标签是——「拯救烧 token 烧到绝望的 Agent 们」。

它的几个关键特征:

  • 微内核架构(microkernel):核心 Harness 极小,所有能力都以「技能(skill)」的形式按需加载。社区版本已经识别出超过 134 个技能,覆盖文件操作、代码搜索、Shell 调用、Git 操作、Web 抓取等常见 Agent 场景。
  • 多入口适配:同一个 Agent Core,可以同时跑在 CLI、Web UI 和聊天频道(IM/聊天机器人)中。
  • 全平台运行:支持 Windows、macOS、Linux,提供 Windows 便携版(portable)和 uv tool install 的快速终端安装方式,也支持从源码直接 git clone 跑起来。
  • 赛道同行者:在定位上,OpenSquilla 通常被拿来与 OpenClaw、Hermes Agent 等开源 Agent 项目对比,三者共同构成了 2026 年「本地可跑、可定制、可审计」的开源 Agent 第一梯队。

在 0.4.0 之前,OpenSquilla 的稳定版本一直停留在 0.3.1。0.3.x 系列主要解决的是「Agent 太烧 token」这个老大难问题——通过微内核 + 按需加载技能 + 上下文压缩,把一次复杂任务的 token 消耗压到同类方案的 1/3 到 1/2。

而 0.4.0,则把焦点从「省」转向了「准」。

二、0.4.0 的核心更新:coding 模式与自我验证

1. 全新的 coding 工作流模式

0.4.0 引入了一个专门面向软件工程任务的 coding 模式。这是一个预编排的工作流(workflow),而不是简单地把若干技能拼在一起。

在 coding 模式下,OpenSquilla 会按照下面这条主线推进一次编码任务:

  1. 理解阶段(Understand):读取相关源码、README、测试,构建任务的上下文地图。
  2. 规划阶段(Plan):生成一份可被人类审阅的修改计划,包括要动的文件、要新增的测试。
  3. 修改阶段(Edit):按计划逐文件修改,遵守「读—改—验」的小步循环。
  4. 验证阶段(Verify):这是 0.4.0 新增的核心环节,由 Agent 自己来做。
  5. 汇报阶段(Report):输出 diff、测试结果、剩余风险点。

和过去「让 LLM 直接写代码 + 人类肉眼 review」的粗放模式相比,coding 模式更像是把一个初级工程师的标准作业流程写进了 Harness 里。

OpenSquilla coding 模式工作流示意图,从 Understand 到 Report 的五阶段流程

2. 首次引入「自我验证」机制

0.4.0 最大的亮点,是首次把 自我验证(self-verification) 作为一等公民引入 AI 编码流程。

它的基本思路并不复杂,但工程化做扎实并不容易。可以理解成:Agent 自己生成代码后,强制走一遍「敌对式复核」

具体来说,自我验证包含但不限于这几层:

  • 运行验证:能跑测试就跑测试,跑不了就尝试构造最小可执行片段(minimal repro),用真实运行结果替代「看起来对」的直觉。
  • 逆向解释:让 Agent 用自然语言重新解释一遍自己刚写的 diff,并和原始任务描述对照,检查是否「答非所问」。
  • 对抗式质疑(adversarial verify):派出独立的「质疑者」角色,默认假设代码是错的,必须给出能说服质疑者的证据才算通过。
  • 覆盖度检查:检查任务里提到的每一条需求是否都有对应的代码改动或测试覆盖,避免「漏做一半」。
  • 副作用扫描:扫一遍是否动了不该动的文件、是否引入了多余的依赖、是否破坏了既有 API。

这套机制和近年来在 Agentic Workflow 中被反复验证有效的「思考 → 分析 → 自我验证 → 自我纠正」范式一脉相承——已经有团队用类似思路在生产环境里跑出了「自动提交 72 个安全补丁」这种结果。OpenSquilla 0.4.0 把这套范式内化进了 Harness 本身,而不是让每个使用者自己再去拼。

3. 让能力「沉淀进 Harness」

OpenSquilla 团队在 0.4.0 的设计说明里反复强调一个观点:

形成某种自我进化的机制,让这些能力最终内化进 Harness 里。

这句话其实是整个 0.4 系列的纲领。过去开发者们写 Prompt、攒 skill、调 workflow,很多经验都散落在各人的 dotfiles 和飞书文档里。0.4.0 通过 coding 模式 + 自我验证,把「好的编码习惯」从「用户需要记得的提示词」变成了「Harness 默认就会做的事」。

三、为什么「自我验证」对 Coding Agent 这么关键?

时间来到 2026 年中,软件工程领域已经全面引入 Coding Agent,一线生产力工具排名靠前的有 Claude Code、Codex、OpenCode,本地端通过 VS Code 调用这些 Agent 也已是相当主流的开发姿势。

但凡用过一段时间 Coding Agent 的人,大概都踩过同一个坑:

  • 代码看起来漂亮,跑起来报错;
  • 单元测试自己写自己过,关键场景根本没覆盖;
  • 改了 A 文件,悄悄破坏了 B 文件;
  • 漏掉用户需求里最重要的那一条。

这些问题的根源,并不是 LLM「不够聪明」,而是缺一个强制的、不可绕过的校验环节。在传统软件工程里,这个环节叫 Code Review + CI;在 AI 编码场景里,过去一直依赖人类用户充当这道闸门。

OpenSquilla 0.4.0 想做的事情,就是把这道闸门部分地交还给 Agent 自己

  • 不替代人类 review,但能把「明显错」「明显漏」「明显多」的内容拦在 Agent 输出之前;
  • 它让 Agent 输出之前就先经历一轮「自我反驳」,降低过度自信带来的副作用;
  • 它让 token 花在更有价值的地方——验证一次的成本,往往远低于人类发现问题后重新让 Agent 改一次。

这也呼应了 OpenSquilla 一直以来的标签:token-efficient。自我验证表面上多花了 token,实际上是把「事后返工」的高额成本换成了「事中校验」的低额成本。

自我验证机制示意图,展示 Agent 生成代码后的对抗式复核流程

四、安装与上手:保持一贯的「开箱即跑」

0.4.0 在安装方式上延续了 0.3.x 的几条路径,使用者按需挑一种即可:

| 方式 | 适用人群 | 说明 | | --- | --- | --- | | Quick terminal install(推荐) | 任意 OS 的最终用户 | 用 uv tool install 一行装好发布的 wheel | | Windows portable | Windows 用户 | 预编译的便携启动器,免安装 | | Install from source | 跟随 main 分支的用户 | 从 git checkout 跑,但不编辑源码 | | Develop from source | 想改源码贡献的开发者 | 从 git checkout 跑,并可直接编辑 |

推荐的快速安装命令(终端中执行):

# 推荐路径:通过 uv 安装预编译 wheel
uv tool install opensquilla

# 安装完成后,如果 PATH 没刷新,开一个新终端
opensquilla --help

# 进入 coding 模式
opensquilla coding

从源码体验最新特性:

git clone https://github.com/opensquilla/opensquilla.git
cd opensquilla
uv sync
uv run opensquilla coding

注意:Quick terminal install 路径不会自动把可执行文件加入 PATH,如果命令找不到,重开一个终端即可。

五、和 OpenClaw、Hermes Agent 的差异化定位

在中文开发者社区,OpenSquilla 经常被拿来和 OpenClaw、Hermes Agent 对比。从 0.4.0 这个版本可以更清楚地看出三者的差异化路线:

  • OpenClaw:偏「全能型」,技能丰富、生态活跃,更接近一个「装什么都能跑」的通用 Agent。
  • Hermes Agent:偏「消息驱动 + 多渠道」,强项是和 IM、邮件、Webhook 等通道深度整合。
  • OpenSquilla:偏「省 token + 工程严谨」,强项是微内核 + 工作流 + 现在的自我验证。

如果你是一个把 Coding Agent 用在正经项目里、对成本和正确性都有要求的开发者,0.4.0 之后的 OpenSquilla 会是一个比较舒服的选择。

六、写在最后:Harness 的能力,正在被「内化」

2026 年的 AI Coding 赛道,竞争重心已经悄悄从「谁家模型更强」变成「谁家 Harness 更懂工程」。Claude Code、Codex 这样的闭源方案在产品打磨上一路领先,而 OpenSquilla 这类开源项目则提供了另一种可能性:

  • 可本地化:代码、数据、Prompt 都在自己机器上;
  • 可审计:每一条 skill、每一段 workflow 都能翻源码;
  • 可演化:社区贡献的好习惯,可以直接变成下一个版本的默认行为。

0.4.0 的「coding 模式 + 自我验证」就是这种「能力内化进 Harness」哲学的一次具体落地。对于正在被 token 账单和 Agent 错误折磨的开发者来说,这一版值得认真试一试。


参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: