Claude Mythos首战curl:5个漏洞4个误判

模型上新

Anthropic高调宣传的资安模型Mythos首次实战curl项目,扫描17.6万行代码仅确认1个低危漏洞,3个误判加1个普通bug。curl之父Daniel Stenberg直言:没有突破,宣传有夸大成分。

Claude Mythos 首战 curl:扫17.6万行代码只确认1个漏洞,4个是误判和普通bug

4 月份 Anthropic 把 Mythos 吹成「全球最危险的 AI」时,整个安全圈都被搞得有点紧张。这家公司当时放话说,新模型在源代码漏洞检测上的能力「危险地强大」,强到他们决定暂不开放给公众,只给少数大机构内测。配合上 5 月初未上市版本被入侵的消息,整件事看起来像是一颗即将引爆的炸弹。

上周末,curl 之父 Daniel Stenberg 把这颗炸弹拆开了。结果有点尴尬:扫了 17.6 万行 C 代码,Mythos 报了 5 个漏洞,curl 安全团队人工复核后,只有 1 个是真的,而且是低严重性级别。剩下 4 个里 3 个误判、1 个只是普通 bug。

这是 Mythos 第一次接受公开项目的实战检验,结果跟 Anthropic 此前的市场宣传形成了相当明显的落差。

Daniel Stenberg 博客中关于 Mythos 扫描 curl 结果的统计图

一份比预期短得多的报告

这次合作是通过 Linux 基金会的 Alpha-Omega 专案安排的,由研究人员协助 curl 团队跑 Mythos 的扫描。5 月 6 日,curl 收到第一份分析报告。

Daniel Stenberg 在博客里说,团队原本的心理预期是一份「长长的问题清单」,毕竟 Anthropic 这几个月把声势造得这么大。打开报告才发现,正经标记为安全漏洞的只有 5 项。

人工复核之后的分布是这样的:

  • 1 项确认为真实漏洞,低严重性,将在 6 月下旬的 curl 8.21.0 版本中修复
  • 3 项为误判(false positive),AI 看错了
  • 1 项实际上不是安全问题,只是普通 bug
  • 额外 20 项 bug 报告,几乎没有误判

如果只看漏洞这一项,准确率是 1/5,也就是 20%。这个数字说实话不算好看,尤其是对一个被宣传成「最强代码安全审计模型」的产品而言。

但 20 个普通 bug 报告里几乎没有误判,这部分的表现是合格的——只是 Anthropic 卖的不是 bug 检测,是漏洞检测。

curl 不是个公平的靶子

这里需要给 Mythos 说句公道话。Stenberg 自己在文章里也明确指出:单纯比较漏洞发现数量并不公平

curl 这个项目有多卷,做过 C 项目安全审计的人应该有体感。在 Mythos 进场之前,curl 团队已经在用一整套 AI 工具做代码扫描:

  • AISLE:专做开源安全审计的 AI 工具
  • Zeropath:自动化漏洞挖掘平台
  • OpenAI Codex Security:OpenAI 自家的代码安全方向产品

靠这些工具的产出,curl 团队过去 8 到 10 个月修了 200 到 300 个 bug,发了至少十几个 CVE。也就是说,能被 AI 工具发现的「容易摘的果子」基本已经被摘光了。

这种状态下,Mythos 进来还能挖出 1 个真漏洞 + 20 个有效 bug 报告,从结果倒推,能力并不算差,只是没有 Anthropic 此前暗示的那种「断层式领先」。

Stenberg 给的结论也很克制:「Mythos 没有找到新型漏洞或内存类漏洞,与其他既有 AI 工具相比,发现问题的能力并没有重大突破。」

Anthropic 的「宣传 vs 现实」剪刀差

回头看 4 月份那波操作,Mythos 的市场叙事是这样建立的:

第一步,《财富》杂志放出消息,说 Anthropic 即将发布的 Mythos 在软件编码、学术推理、网络安全测试上分数「大幅提升」。

第二步,公司自己加码,强调模型的代码漏洞检测能力「危险地强大」,出于安全考虑暂不公开,只给少数大型机构。

第三步,5 月初传出未上市的 Mythos 模型被一个黑客组织绕过安全机制取得,进一步加深了「这模型威力大到连 Anthropic 自己都没看住」的印象。媒体报道称,攻击者通过猜测 Anthropic 过去的命名习惯找到在线存储位置,再借助一名第三方承包商权限的成员完成入侵。

这一连串动作下来,Mythos 在公众认知里几乎被塑造成了一个 AI 安全领域的核武器级产品。

但伯恩斯坦研究当时就发过一份报告给市场降温,说大家「误读了」Mythos 的实际能力定位。现在 curl 这一战,相当于给伯恩斯坦的判断做了背书。

这次实测说明了什么

剥开宣传层,Mythos 这次的表现其实揭示了几件事,对开发者更有参考价值。

第一,AI 在代码安全审计上仍然没有跨越「人工复核」这一关。 5 个漏洞报告里 4 个需要人工筛掉,意味着 AI 输出在生产环境里还是更接近「线索」而不是「结论」。如果你把 Mythos 的报告直接交给修复流程,会浪费大量工程师时间在追查不存在的问题上。

第二,bug 检测和漏洞检测是两件事。 Mythos 在 20 个普通 bug 报告里几乎零误判,但漏洞这边误判率高达 60%(3/5)。这种不对称很值得玩味——可能说明模型对「这段代码不太对劲」的感知是准的,但要再进一步判断「这是不是可被利用的安全漏洞」,模型还在猜。

第三,AI 工具对成熟项目的边际效用在快速下降。 curl 这种被反复扫过的项目,新工具进来很难再挖出大鱼。但反过来说,对于那些还没系统做过 AI 辅助审计的项目,第一波扫描的产出大概率是惊人的。如果你维护着一个有些年头、没做过 AI 安全审计的开源项目,现在是个值得行动的时间点。

第四,封闭式发布并不等于能力更强。 Anthropic 用「太危险所以不开放」的叙事推 Mythos,从结果看,能力并没有显著超过已经开放使用的 AISLE、Zeropath 等工具。安全圈对这种营销话术应该建立起免疫力。

给做安全审计的开发者一点参考

如果你正在评估 AI 代码安全工具,curl 这次的实测给出了一份相对干净的对照样本。几个可以直接拿走的判断:

  • 不要押注单一工具。curl 团队同时跑 AISLE、Zeropath、Codex Security、Mythos,组合使用比单点突破更有效
  • 把 AI 报告当作「优先级队列」而不是「待修清单」,留出足够的人工复核时间
  • 漏洞类报告的误判率显著高于普通 bug 报告,复核资源应该向漏洞类倾斜
  • 关注模型有没有发现「新型漏洞」或「内存类漏洞」,这是判断 AI 能力是否真有突破的关键指标,Mythos 在这两项上都没拿分

Mythos 发现的那 1 个低严重性漏洞,会跟随 6 月下旬的 curl 8.21.0 一起发布。具体细节按照 curl 的惯例,会在补丁同步公开时披露 CVE 编号和影响范围。

说到底,Mythos 这次的实战成绩,对 Anthropic 来说不算光彩,但对整个行业是件好事——它把 AI 安全审计从「PPT 阶段」拉回到「可对比的工程指标」上。下一次某家公司再喊出「危险地强大」的时候,开发者至少多了一把尺子。

参考来源