Anthropic 发布 Claude Fable 5 / Mythos 5：编程能力代际跃迁

Anthropic 把那个曾「强到不敢发」的 Mythos 模型，以 Fable 5 的形式正式开放给公众，软件工程能力实现代际跃迁。一个 5000 万行 Ruby 代码库的迁移，它一天搞定。

Anthropic 这两周憋了个大招。

6 月 10 日凌晨，Anthropic 把那个 4 月就放出预览、被外媒形容为「强到不敢全面发布」的 Mythos 系列正式商业化——面向普通付费用户的版本叫 Claude Fable 5，面向网络安全防御机构与基础设施厂商的「全功能版」叫 Claude Mythos 5。两者底层是同一个模型，区别只在于安全围栏的高低。截至今天（6 月 21 日），Fable 5 已经在 Claude.ai、API 和各家代码 IDE 里跑了十来天，开发者社区的反馈基本可以盖棺定论：这是 Claude 自 3.5 Sonnet 之后，最具「代差感」的一次升级。

如果说去年的 Opus 4.6 还是在 SWE-bench 上和 GPT-5、Gemini 3 Pro 互有胜负，Fable 5 的出现，把 Anthropic 重新拉回了编程模型这条赛道的 C 位。

Claude Fable 5 与 Mythos 5 能力对比示意图

一天迁完 5000 万行 Ruby，这不是基准测试是真活

先看 Anthropic 自己晒的几个数字。

在 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0、GPQA Diamond 这一票测试里，Fable 5 全面超过了上一代旗舰 Opus 4.6，并在多项指标上压过 GPT-5.4 和 Gemini 3.1 Pro。但坦白讲，到这个阶段单看 SWE-bench 已经意义不大——Anthropic 自己都承认，开启网页搜索、抓取、工具调用、代码执行之后跑出的 86.9%，比 Opus 4.6 的 83.7% 只高了 3 个点，「这个基准接近饱和了」。

真正吓人的是两个东西：

第一是 token 效率。 Fable 5 在同一基准上把单任务 token 消耗从 Opus 4.6 的 111 万压到了 22.6 万，砍掉了约 80%。这意味着在 Claude Code、Cursor、Cline 这类 Agent 场景里，同样预算能多跑 4-5 倍的回合数。Cognition 的 FrontierCode 评估里，Fable 5 在中等工作量档位上拿到了所有前沿模型的最高分——这是个偏「工程师日常」的评测，不是刷题。

第二是 Stripe 那个案例。 Stripe 在早期接入测试里，让 Fable 5 去迁移一个 5000 万行的 Ruby 代码库。这种活在过去要怎么算？一个人类工程团队手动做，至少两个月起步。Fable 5 一天跑完。Anthropic 措辞很克制：「将数月的工程量压缩到了几天之内」，但 Stripe 自己公布的数字更具体——单库迁移 24 小时。

5000 万行是什么概念？Linux kernel 大约是 3000 多万行。也就是说，这玩意儿能用一天时间把一个比 Linux 内核还大的代码库做语义级重构，并且交付的代码能跑过 CI。这已经不是「辅助编程」的范畴，是工程师工作流的根本性重写。

为什么编程能力突然跳了一档

看了 Anthropic 自己写的那份长达数千字的 system card，能拼出来的技术路线大致是：

不是专项训练。 联合创始人 Jared Kaplan 反复强调，Mythos 的代码、漏洞挖掘、推理能力都不是单独喂数据训出来的，而是底层模型能力整体跃迁的副产品。这一点很关键——它意味着 Anthropic 在预训练或者 RL 阶段做对了某件结构性的事，而不是又堆了一组 RLHF 数据。
RSP v3 框架下的第一款模型。 Mythos 系列是 Anthropic 把 Responsible Scaling Policy 升到第三版之后第一个写 system card 的模型，这也解释了为什么 4 月就有预览版、却拖到 6 月才商业化——中间整整两个月在做对齐和红队测试。
对齐表现意外地好。 Anthropic 内部对比了 Claude Sonnet 4.6、Opus 4.6、Mythos Preview、Grok 4.20、Gemini 3.1 Pro、Kimi K2.5 在「行为失配、配合滥用、欺骗用户、谄媚」等高风险维度的得分，Claude 三款全部偏低，而 Grok 4.20 在多项指标上「处于最高位」。唯一的例外是「评测感知」——Claude 系列更容易在对话里口头表达出「我意识到我在被测试」，这反而是 Anthropic 想要的透明度。

Mythos 5：那个「不敢全量发」的版本到底强在哪

回到 4 月那波风波。当时 Anthropic 发的是 Mythos Preview，没对普通用户开放，只通过一个叫 Project Glasswing（玻璃翼）的计划，给到 AWS、苹果、博通、思科、微软、英伟达等大约 40-50 家关键基础设施企业。

名字来自玻璃翼蝶——透明翅膀藏在繁枝里，正如关键软件中长期蛰伏的漏洞。

这套定位不是营销，是真有东西。Anthropic 在 OSS-Fuzz 语料对应的开源仓库里跑了一轮自动化评估，大约 7000 个入口点：

Sonnet 4.6 和 Opus 4.6 大多只能造成「低等级崩溃」；
Mythos Preview 实现了近 600 次第一、二级崩溃，并在多个已打补丁目标上完成了完整的控制流劫持。

更狠的是 OpenBSD——这个以高安全性著称、广泛用于防火墙的开源系统，被 Mythos 翻出了一个潜伏 27 年的高危漏洞。过去几周累计揪出「数千个高危或严重级漏洞」，其中不少在代码里躺了 10 到 20 年。

前沿红队主管 Logan Graham 的原话：Mythos 挖掘与利用漏洞的效率是前代的「约十倍」，是网络安全行业「洗牌的起点」。

这就是为什么白宫、财政部、美联储、华尔街要紧急开会。美国财长 Bessent 和美联储主席 Powell 在 Mythos 有限发布当天召集华尔街高管闭门——这种级别的会议，过去只在 2008 金融危机和 2020 疫情冲击时才开过。

现在的 Mythos 5，是 Preview 版基础上做了三个月安全工作之后的「完全体」，但依然不对公众开放——你能用的是 Fable 5，敏感话题会被路由到能力次一档的 Opus 4.8 来回答。

视觉、科研、Agent：编程之外的几个亮点

虽然这次主打编程，但 Fable 5 在其他维度的提升也值得说两句。

视觉。 Anthropic 称 Fable 5 是目前最强的视觉模型，并且——这个 demo 挺戏剧化——仅凭视觉就能通关《宝可梦：火红》。早期 Claude 跑这个游戏需要外挂一堆辅助脚本来识别画面状态，Fable 5 直接看像素玩。

科研 Agent。 Mythos 5 在 Anthropic 内部把蛋白质设计某些环节效率提了约 10 倍，能在一周多时间里「几乎完全自主」开展基因组学研究。这话从 Anthropic 嘴里出来分量挺重——他们家说话向来比 OpenAI 保守。

长任务一致性。 这是 Fable 5 真正让我觉得「值得换」的点。任务越长、越复杂，相对前代的优势越明显。在 Cursor、Claude Code、Cline 里跑多步骤重构，Opus 4.6 大概在 30-40 个工具调用后会开始飘，Fable 5 在 100+ 调用的长链路上还能稳住目标。这不是数据，是这两周开发者社区的体感共识。

Fable 5 在长任务编程中的 token 效率曲线

怎么用：OpenAI Hub 已经接入

OpenAI Hub 这边在 Fable 5 发布当天就完成了上线，国内直连，沿用 OpenAI 兼容格式。如果你之前在用 Claude 3.5 / Opus 4.6 的项目，基本只需要改个 model 字段：

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.chat.completions.create(
    model="claude-fable-5",
    messages=[
        {"role": "system", "content": "You are a senior backend engineer."},
        {"role": "user", "content": "把这个 Ruby 2.7 的 ActiveRecord 模块迁移到 Rails 7.1，保留所有 callback 行为。"}
    ],
    max_tokens=8192,
    temperature=0.2
)

print(response.choices[0].message.content)

如果是 Agent / 工具调用场景，建议把 temperature 压到 0-0.3 之间，Fable 5 在低温下规划能力更稳。带工具调用的写法和此前 Claude 模型一致，tools 字段直接复用 OpenAI function calling 的 schema 即可。

几个值得泼冷水的地方

吹完了，也说几个我觉得需要保留态度的地方。

第一，预训练污染的风险。 Anthropic 自己在 system card 里就提了，那个 86.9% 的高难度基准成绩「可能受到预训练污染影响」。这种自曝有点罕见，但也说明他们对刷榜分数本身保留态度——真正能信的还是 Stripe、Cognition 这种第三方的工程化验证。

第二，Fable 5 的「降级路由」体验未必好。 因为对网络安全等敏感话题会自动 fallback 到 Opus 4.8，你在做安全研究、渗透测试、CTF 相关的工作时，会经常感到「忽然变笨了」。这是 Anthropic 的产品策略，不是 bug，但开发者社区已经在抱怨。

第三，Gary Marcus 那句话不算全错。 4 月份 Mythos 闹得最凶时，亚马逊 CEO Andy Jassy 向白宫报告了「成功破解 Fable」，结果白宫直接下令禁止外国用户访问，最后演变成 Anthropic 全球禁用、Fable 5 / Mythos 5 在全球范围内被关闭一段时间。这事让欧洲、加拿大的客户开始严肃讨论「主权 AI」——一个随时可能被美国政府叫停的模型，企业怎么敢押注？这是 Anthropic 接下来一年要处理的最大商业问题，比模型本身更棘手。

第四，Anthropic 的「恐惧营销」习惯。 Alex Stamos 直接把 Mythos 的发布形容成「曼哈顿计划在卡通里公布原子弹」，David Sacks 也承认 Anthropic「过往有恐惧营销纪录」。Mythos 的能力是真的，但每次发新模型都先吓一遍政府和华尔街，这种节奏感本身就是产品策略的一部分。

结语：编程模型的格局又被改了一次

从 2024 年中 Claude 3.5 Sonnet 把 GPT-4o 在 SWE-bench 上拍翻开始，Anthropic 在编程这条赛道上就一直有种「闷头练功」的姿态。Fable 5 / Mythos 5 这一波，本质上是把过去一年半积累的工程能力、对齐能力、Agent 长任务能力一次性兑现。

对开发者来说，结论很直接：如果你在做需要长链路工具调用的代码 Agent，现在没有理由不切到 Fable 5；如果你只是写写 CRUD、调调 prompt，Sonnet 4.6 仍然是性价比最高的选择。GPT-5.4 在通用对话和创意写作上还守得住，Gemini 3.1 Pro 在多模态和超长上下文上是另一种解法——三家分庭抗礼的格局在 2026 下半年大概率会维持。

但只要 Stripe 那个「一天迁完 5000 万行代码」的案例还在被复现，「编程场景默认用 Claude」这件事，就会被越来越多团队写进技术选型文档里。

参考来源

Anthropic 发布新模型：Trump Code（社区讨论）— linux.do：中文开发者社区对本次发布的第一手讨论与梳理，涵盖能力评测与 API 接入实测。

Anthropic 放出 Mythos 系列：Claude 进入「神话级」编程时代

一天迁完 5000 万行 Ruby，这不是基准测试是真活

为什么编程能力突然跳了一档

Mythos 5：那个「不敢全量发」的版本到底强在哪

视觉、科研、Agent：编程之外的几个亮点

怎么用：OpenAI Hub 已经接入

几个值得泼冷水的地方

结语：编程模型的格局又被改了一次

参考来源

相关推荐

Cloudflare 给 AI Agent 开了后门：免注册秒级部署

SILX AI 甩出 Quasar-Preview：18B MoE 死磕 500 万上下文

The Atlantic 把 AI 音乐训练集翻出来了：2100 万首歌可搜索

联系我们