Anthropic高调宣传的资安模型Mythos首次实战curl项目，扫描17.6万行代码仅确认1个低危漏洞，3个误判加1个普通bug。curl之父Daniel Stenberg直言：没有突破，宣传有夸大成分。

Claude Mythos 首战 curl：扫17.6万行代码只确认1个漏洞，4个是误判和普通bug

4 月份 Anthropic 把 Mythos 吹成「全球最危险的 AI」时，整个安全圈都被搞得有点紧张。这家公司当时放话说，新模型在源代码漏洞检测上的能力「危险地强大」，强到他们决定暂不开放给公众，只给少数大机构内测。配合上 5 月初未上市版本被入侵的消息，整件事看起来像是一颗即将引爆的炸弹。

上周末，curl 之父 Daniel Stenberg 把这颗炸弹拆开了。结果有点尴尬：扫了 17.6 万行 C 代码，Mythos 报了 5 个漏洞，curl 安全团队人工复核后，只有 1 个是真的，而且是低严重性级别。剩下 4 个里 3 个误判、1 个只是普通 bug。

这是 Mythos 第一次接受公开项目的实战检验，结果跟 Anthropic 此前的市场宣传形成了相当明显的落差。

Daniel Stenberg 博客中关于 Mythos 扫描 curl 结果的统计图

一份比预期短得多的报告

这次合作是通过 Linux 基金会的 Alpha-Omega 专案安排的，由研究人员协助 curl 团队跑 Mythos 的扫描。5 月 6 日，curl 收到第一份分析报告。

Daniel Stenberg 在博客里说，团队原本的心理预期是一份「长长的问题清单」，毕竟 Anthropic 这几个月把声势造得这么大。打开报告才发现，正经标记为安全漏洞的只有 5 项。

人工复核之后的分布是这样的：

如果只看漏洞这一项，准确率是 1/5，也就是 20%。这个数字说实话不算好看，尤其是对一个被宣传成「最强代码安全审计模型」的产品而言。

但 20 个普通 bug 报告里几乎没有误判，这部分的表现是合格的——只是 Anthropic 卖的不是 bug 检测，是漏洞检测。

这里需要给 Mythos 说句公道话。Stenberg 自己在文章里也明确指出：单纯比较漏洞发现数量并不公平。

curl 这个项目有多卷，做过 C 项目安全审计的人应该有体感。在 Mythos 进场之前，curl 团队已经在用一整套 AI 工具做代码扫描：

靠这些工具的产出，curl 团队过去 8 到 10 个月修了 200 到 300 个 bug，发了至少十几个 CVE。也就是说，能被 AI 工具发现的「容易摘的果子」基本已经被摘光了。

这种状态下，Mythos 进来还能挖出 1 个真漏洞 + 20 个有效 bug 报告，从结果倒推，能力并不算差，只是没有 Anthropic 此前暗示的那种「断层式领先」。

Stenberg 给的结论也很克制：「Mythos 没有找到新型漏洞或内存类漏洞，与其他既有 AI 工具相比，发现问题的能力并没有重大突破。」

回头看 4 月份那波操作，Mythos 的市场叙事是这样建立的：

第一步，《财富》杂志放出消息，说 Anthropic 即将发布的 Mythos 在软件编码、学术推理、网络安全测试上分数「大幅提升」。

第二步，公司自己加码，强调模型的代码漏洞检测能力「危险地强大」，出于安全考虑暂不公开，只给少数大型机构。

第三步，5 月初传出未上市的 Mythos 模型被一个黑客组织绕过安全机制取得，进一步加深了「这模型威力大到连 Anthropic 自己都没看住」的印象。媒体报道称，攻击者通过猜测 Anthropic 过去的命名习惯找到在线存储位置，再借助一名第三方承包商权限的成员完成入侵。

这一连串动作下来，Mythos 在公众认知里几乎被塑造成了一个 AI 安全领域的核武器级产品。

但伯恩斯坦研究当时就发过一份报告给市场降温，说大家「误读了」Mythos 的实际能力定位。现在 curl 这一战，相当于给伯恩斯坦的判断做了背书。

剥开宣传层，Mythos 这次的表现其实揭示了几件事，对开发者更有参考价值。

第一，AI 在代码安全审计上仍然没有跨越「人工复核」这一关。 5 个漏洞报告里 4 个需要人工筛掉，意味着 AI 输出在生产环境里还是更接近「线索」而不是「结论」。如果你把 Mythos 的报告直接交给修复流程，会浪费大量工程师时间在追查不存在的问题上。

第二，bug 检测和漏洞检测是两件事。 Mythos 在 20 个普通 bug 报告里几乎零误判，但漏洞这边误判率高达 60%（3/5）。这种不对称很值得玩味——可能说明模型对「这段代码不太对劲」的感知是准的，但要再进一步判断「这是不是可被利用的安全漏洞」，模型还在猜。

第三，AI 工具对成熟项目的边际效用在快速下降。 curl 这种被反复扫过的项目，新工具进来很难再挖出大鱼。但反过来说，对于那些还没系统做过 AI 辅助审计的项目，第一波扫描的产出大概率是惊人的。如果你维护着一个有些年头、没做过 AI 安全审计的开源项目，现在是个值得行动的时间点。

第四，封闭式发布并不等于能力更强。 Anthropic 用「太危险所以不开放」的叙事推 Mythos，从结果看，能力并没有显著超过已经开放使用的 AISLE、Zeropath 等工具。安全圈对这种营销话术应该建立起免疫力。

如果你正在评估 AI 代码安全工具，curl 这次的实测给出了一份相对干净的对照样本。几个可以直接拿走的判断：

Mythos 发现的那 1 个低严重性漏洞，会跟随 6 月下旬的 curl 8.21.0 一起发布。具体细节按照 curl 的惯例，会在补丁同步公开时披露 CVE 编号和影响范围。

说到底，Mythos 这次的实战成绩，对 Anthropic 来说不算光彩，但对整个行业是件好事——它把 AI 安全审计从「PPT 阶段」拉回到「可对比的工程指标」上。下一次某家公司再喊出「危险地强大」的时候，开发者至少多了一把尺子。