Claude Mythos 首战 curl:扫17.6万行代码只确认1个漏洞,4个是误判和普通bug
4 月份 Anthropic 把 Mythos 吹成「全球最危险的 AI」时,整个安全圈都被搞得有点紧张。这家公司当时放话说,新模型在源代码漏洞检测上的能力「危险地强大」,强到他们决定暂不开放给公众,只给少数大机构内测。配合上 5 月初未上市版本被入侵的消息,整件事看起来像是一颗即将引爆的炸弹。
上周末,curl 之父 Daniel Stenberg 把这颗炸弹拆开了。结果有点尴尬:扫了 17.6 万行 C 代码,Mythos 报了 5 个漏洞,curl 安全团队人工复核后,只有 1 个是真的,而且是低严重性级别。剩下 4 个里 3 个误判、1 个只是普通 bug。
这是 Mythos 第一次接受公开项目的实战检验,结果跟 Anthropic 此前的市场宣传形成了相当明显的落差。

一份比预期短得多的报告
这次合作是通过 Linux 基金会的 Alpha-Omega 专案安排的,由研究人员协助 curl 团队跑 Mythos 的扫描。5 月 6 日,curl 收到第一份分析报告。
Daniel Stenberg 在博客里说,团队原本的心理预期是一份「长长的问题清单」,毕竟 Anthropic 这几个月把声势造得这么大。打开报告才发现,正经标记为安全漏洞的只有 5 项。
人工复核之后的分布是这样的:
- 1 项确认为真实漏洞,低严重性,将在 6 月下旬的 curl 8.21.0 版本中修复
- 3 项为误判(false positive),AI 看错了
- 1 项实际上不是安全问题,只是普通 bug
- 额外 20 项 bug 报告,几乎没有误判
如果只看漏洞这一项,准确率是 1/5,也就是 20%。这个数字说实话不算好看,尤其是对一个被宣传成「最强代码安全审计模型」的产品而言。
但 20 个普通 bug 报告里几乎没有误判,这部分的表现是合格的——只是 Anthropic 卖的不是 bug 检测,是漏洞检测。
curl 不是个公平的靶子
这里需要给 Mythos 说句公道话。Stenberg 自己在文章里也明确指出:单纯比较漏洞发现数量并不公平。
curl 这个项目有多卷,做过 C 项目安全审计的人应该有体感。在 Mythos 进场之前,curl 团队已经在用一整套 AI 工具做代码扫描:
- AISLE:专做开源安全审计的 AI 工具
- Zeropath:自动化漏洞挖掘平台
- OpenAI Codex Security:OpenAI 自家的代码安全方向产品
靠这些工具的产出,curl 团队过去 8 到 10 个月修了 200 到 300 个 bug,发了至少十几个 CVE。也就是说,能被 AI 工具发现的「容易摘的果子」基本已经被摘光了。
这种状态下,Mythos 进来还能挖出 1 个真漏洞 + 20 个有效 bug 报告,从结果倒推,能力并不算差,只是没有 Anthropic 此前暗示的那种「断层式领先」。
Stenberg 给的结论也很克制:「Mythos 没有找到新型漏洞或内存类漏洞,与其他既有 AI 工具相比,发现问题的能力并没有重大突破。」
Anthropic 的「宣传 vs 现实」剪刀差
回头看 4 月份那波操作,Mythos 的市场叙事是这样建立的:
第一步,《财富》杂志放出消息,说 Anthropic 即将发布的 Mythos 在软件编码、学术推理、网络安全测试上分数「大幅提升」。
第二步,公司自己加码,强调模型的代码漏洞检测能力「危险地强大」,出于安全考虑暂不公开,只给少数大型机构。
第三步,5 月初传出未上市的 Mythos 模型被一个黑客组织绕过安全机制取得,进一步加深了「这模型威力大到连 Anthropic 自己都没看住」的印象。媒体报道称,攻击者通过猜测 Anthropic 过去的命名习惯找到在线存储位置,再借助一名第三方承包商权限的成员完成入侵。
这一连串动作下来,Mythos 在公众认知里几乎被塑造成了一个 AI 安全领域的核武器级产品。
但伯恩斯坦研究当时就发过一份报告给市场降温,说大家「误读了」Mythos 的实际能力定位。现在 curl 这一战,相当于给伯恩斯坦的判断做了背书。
这次实测说明了什么
剥开宣传层,Mythos 这次的表现其实揭示了几件事,对开发者更有参考价值。
第一,AI 在代码安全审计上仍然没有跨越「人工复核」这一关。 5 个漏洞报告里 4 个需要人工筛掉,意味着 AI 输出在生产环境里还是更接近「线索」而不是「结论」。如果你把 Mythos 的报告直接交给修复流程,会浪费大量工程师时间在追查不存在的问题上。
第二,bug 检测和漏洞检测是两件事。 Mythos 在 20 个普通 bug 报告里几乎零误判,但漏洞这边误判率高达 60%(3/5)。这种不对称很值得玩味——可能说明模型对「这段代码不太对劲」的感知是准的,但要再进一步判断「这是不是可被利用的安全漏洞」,模型还在猜。
第三,AI 工具对成熟项目的边际效用在快速下降。 curl 这种被反复扫过的项目,新工具进来很难再挖出大鱼。但反过来说,对于那些还没系统做过 AI 辅助审计的项目,第一波扫描的产出大概率是惊人的。如果你维护着一个有些年头、没做过 AI 安全审计的开源项目,现在是个值得行动的时间点。
第四,封闭式发布并不等于能力更强。 Anthropic 用「太危险所以不开放」的叙事推 Mythos,从结果看,能力并没有显著超过已经开放使用的 AISLE、Zeropath 等工具。安全圈对这种营销话术应该建立起免疫力。
给做安全审计的开发者一点参考
如果你正在评估 AI 代码安全工具,curl 这次的实测给出了一份相对干净的对照样本。几个可以直接拿走的判断:
- 不要押注单一工具。curl 团队同时跑 AISLE、Zeropath、Codex Security、Mythos,组合使用比单点突破更有效
- 把 AI 报告当作「优先级队列」而不是「待修清单」,留出足够的人工复核时间
- 漏洞类报告的误判率显著高于普通 bug 报告,复核资源应该向漏洞类倾斜
- 关注模型有没有发现「新型漏洞」或「内存类漏洞」,这是判断 AI 能力是否真有突破的关键指标,Mythos 在这两项上都没拿分
Mythos 发现的那 1 个低严重性漏洞,会跟随 6 月下旬的 curl 8.21.0 一起发布。具体细节按照 curl 的惯例,会在补丁同步公开时披露 CVE 编号和影响范围。
说到底,Mythos 这次的实战成绩,对 Anthropic 来说不算光彩,但对整个行业是件好事——它把 AI 安全审计从「PPT 阶段」拉回到「可对比的工程指标」上。下一次某家公司再喊出「危险地强大」的时候,开发者至少多了一把尺子。
参考来源
- AI 资安模型 Mythos 首度实战 curl 专案,发现 1 项漏洞与 20 项程式缺陷 - linux.do — 原始事件汇总,含 Daniel Stenberg 博客要点摘录
- AI 資安模型 Mythos 首度實戰 curl 專案 - iThome — iThome 完整报道,含 curl 团队此前使用 AI 工具的修复数据