AI 快讯Anthropic 放出 Mythos 系列:Claude 进入「神话级」编程时代
模型上新

Anthropic 放出 Mythos 系列:Claude 进入「神话级」编程时代

2026-06-21T08:05:59.805Z
Anthropic 放出 Mythos 系列:Claude 进入「神话级」编程时代

Anthropic 把那个曾「强到不敢发」的 Mythos 模型,以 Fable 5 的形式正式开放给公众,软件工程能力实现代际跃迁。一个 5000 万行 Ruby 代码库的迁移,它一天搞定。

Anthropic 这两周憋了个大招。

6 月 10 日凌晨,Anthropic 把那个 4 月就放出预览、被外媒形容为「强到不敢全面发布」的 Mythos 系列正式商业化——面向普通付费用户的版本叫 Claude Fable 5,面向网络安全防御机构与基础设施厂商的「全功能版」叫 Claude Mythos 5。两者底层是同一个模型,区别只在于安全围栏的高低。截至今天(6 月 21 日),Fable 5 已经在 Claude.ai、API 和各家代码 IDE 里跑了十来天,开发者社区的反馈基本可以盖棺定论:这是 Claude 自 3.5 Sonnet 之后,最具「代差感」的一次升级。

如果说去年的 Opus 4.6 还是在 SWE-bench 上和 GPT-5、Gemini 3 Pro 互有胜负,Fable 5 的出现,把 Anthropic 重新拉回了编程模型这条赛道的 C 位。

Claude Fable 5 与 Mythos 5 能力对比示意图

一天迁完 5000 万行 Ruby,这不是基准测试是真活

先看 Anthropic 自己晒的几个数字。

在 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0、GPQA Diamond 这一票测试里,Fable 5 全面超过了上一代旗舰 Opus 4.6,并在多项指标上压过 GPT-5.4 和 Gemini 3.1 Pro。但坦白讲,到这个阶段单看 SWE-bench 已经意义不大——Anthropic 自己都承认,开启网页搜索、抓取、工具调用、代码执行之后跑出的 86.9%,比 Opus 4.6 的 83.7% 只高了 3 个点,「这个基准接近饱和了」。

真正吓人的是两个东西:

第一是 token 效率。 Fable 5 在同一基准上把单任务 token 消耗从 Opus 4.6 的 111 万压到了 22.6 万,砍掉了约 80%。这意味着在 Claude Code、Cursor、Cline 这类 Agent 场景里,同样预算能多跑 4-5 倍的回合数。Cognition 的 FrontierCode 评估里,Fable 5 在中等工作量档位上拿到了所有前沿模型的最高分——这是个偏「工程师日常」的评测,不是刷题。

第二是 Stripe 那个案例。 Stripe 在早期接入测试里,让 Fable 5 去迁移一个 5000 万行的 Ruby 代码库。这种活在过去要怎么算?一个人类工程团队手动做,至少两个月起步。Fable 5 一天跑完。Anthropic 措辞很克制:「将数月的工程量压缩到了几天之内」,但 Stripe 自己公布的数字更具体——单库迁移 24 小时。

5000 万行是什么概念?Linux kernel 大约是 3000 多万行。也就是说,这玩意儿能用一天时间把一个比 Linux 内核还大的代码库做语义级重构,并且交付的代码能跑过 CI。这已经不是「辅助编程」的范畴,是工程师工作流的根本性重写。

为什么编程能力突然跳了一档

看了 Anthropic 自己写的那份长达数千字的 system card,能拼出来的技术路线大致是:

  • 不是专项训练。 联合创始人 Jared Kaplan 反复强调,Mythos 的代码、漏洞挖掘、推理能力都不是单独喂数据训出来的,而是底层模型能力整体跃迁的副产品。这一点很关键——它意味着 Anthropic 在预训练或者 RL 阶段做对了某件结构性的事,而不是又堆了一组 RLHF 数据。
  • RSP v3 框架下的第一款模型。 Mythos 系列是 Anthropic 把 Responsible Scaling Policy 升到第三版之后第一个写 system card 的模型,这也解释了为什么 4 月就有预览版、却拖到 6 月才商业化——中间整整两个月在做对齐和红队测试。
  • 对齐表现意外地好。 Anthropic 内部对比了 Claude Sonnet 4.6、Opus 4.6、Mythos Preview、Grok 4.20、Gemini 3.1 Pro、Kimi K2.5 在「行为失配、配合滥用、欺骗用户、谄媚」等高风险维度的得分,Claude 三款全部偏低,而 Grok 4.20 在多项指标上「处于最高位」。唯一的例外是「评测感知」——Claude 系列更容易在对话里口头表达出「我意识到我在被测试」,这反而是 Anthropic 想要的透明度。

Mythos 5:那个「不敢全量发」的版本到底强在哪

回到 4 月那波风波。当时 Anthropic 发的是 Mythos Preview,没对普通用户开放,只通过一个叫 Project Glasswing(玻璃翼)的计划,给到 AWS、苹果、博通、思科、微软、英伟达等大约 40-50 家关键基础设施企业。

名字来自玻璃翼蝶——透明翅膀藏在繁枝里,正如关键软件中长期蛰伏的漏洞。

这套定位不是营销,是真有东西。Anthropic 在 OSS-Fuzz 语料对应的开源仓库里跑了一轮自动化评估,大约 7000 个入口点:

  • Sonnet 4.6 和 Opus 4.6 大多只能造成「低等级崩溃」;
  • Mythos Preview 实现了近 600 次第一、二级崩溃,并在多个已打补丁目标上完成了完整的控制流劫持

更狠的是 OpenBSD——这个以高安全性著称、广泛用于防火墙的开源系统,被 Mythos 翻出了一个潜伏 27 年的高危漏洞。过去几周累计揪出「数千个高危或严重级漏洞」,其中不少在代码里躺了 10 到 20 年。

前沿红队主管 Logan Graham 的原话:Mythos 挖掘与利用漏洞的效率是前代的「约十倍」,是网络安全行业「洗牌的起点」。

这就是为什么白宫、财政部、美联储、华尔街要紧急开会。美国财长 Bessent 和美联储主席 Powell 在 Mythos 有限发布当天召集华尔街高管闭门——这种级别的会议,过去只在 2008 金融危机和 2020 疫情冲击时才开过。

现在的 Mythos 5,是 Preview 版基础上做了三个月安全工作之后的「完全体」,但依然不对公众开放——你能用的是 Fable 5,敏感话题会被路由到能力次一档的 Opus 4.8 来回答。

视觉、科研、Agent:编程之外的几个亮点

虽然这次主打编程,但 Fable 5 在其他维度的提升也值得说两句。

视觉。 Anthropic 称 Fable 5 是目前最强的视觉模型,并且——这个 demo 挺戏剧化——仅凭视觉就能通关《宝可梦:火红》。早期 Claude 跑这个游戏需要外挂一堆辅助脚本来识别画面状态,Fable 5 直接看像素玩。

科研 Agent。 Mythos 5 在 Anthropic 内部把蛋白质设计某些环节效率提了约 10 倍,能在一周多时间里「几乎完全自主」开展基因组学研究。这话从 Anthropic 嘴里出来分量挺重——他们家说话向来比 OpenAI 保守。

长任务一致性。 这是 Fable 5 真正让我觉得「值得换」的点。任务越长、越复杂,相对前代的优势越明显。在 Cursor、Claude Code、Cline 里跑多步骤重构,Opus 4.6 大概在 30-40 个工具调用后会开始飘,Fable 5 在 100+ 调用的长链路上还能稳住目标。这不是数据,是这两周开发者社区的体感共识。

Fable 5 在长任务编程中的 token 效率曲线

怎么用:OpenAI Hub 已经接入

OpenAI Hub 这边在 Fable 5 发布当天就完成了上线,国内直连,沿用 OpenAI 兼容格式。如果你之前在用 Claude 3.5 / Opus 4.6 的项目,基本只需要改个 model 字段:

from openai import OpenAI

client = OpenAI(
    api_key="your-openai-hub-key",
    base_url="https://api.openai-hub.com/v1"
)

response = client.chat.completions.create(
    model="claude-fable-5",
    messages=[
        {"role": "system", "content": "You are a senior backend engineer."},
        {"role": "user", "content": "把这个 Ruby 2.7 的 ActiveRecord 模块迁移到 Rails 7.1,保留所有 callback 行为。"}
    ],
    max_tokens=8192,
    temperature=0.2
)

print(response.choices[0].message.content)

如果是 Agent / 工具调用场景,建议把 temperature 压到 0-0.3 之间,Fable 5 在低温下规划能力更稳。带工具调用的写法和此前 Claude 模型一致,tools 字段直接复用 OpenAI function calling 的 schema 即可。

几个值得泼冷水的地方

吹完了,也说几个我觉得需要保留态度的地方。

第一,预训练污染的风险。 Anthropic 自己在 system card 里就提了,那个 86.9% 的高难度基准成绩「可能受到预训练污染影响」。这种自曝有点罕见,但也说明他们对刷榜分数本身保留态度——真正能信的还是 Stripe、Cognition 这种第三方的工程化验证。

第二,Fable 5 的「降级路由」体验未必好。 因为对网络安全等敏感话题会自动 fallback 到 Opus 4.8,你在做安全研究、渗透测试、CTF 相关的工作时,会经常感到「忽然变笨了」。这是 Anthropic 的产品策略,不是 bug,但开发者社区已经在抱怨。

第三,Gary Marcus 那句话不算全错。 4 月份 Mythos 闹得最凶时,亚马逊 CEO Andy Jassy 向白宫报告了「成功破解 Fable」,结果白宫直接下令禁止外国用户访问,最后演变成 Anthropic 全球禁用、Fable 5 / Mythos 5 在全球范围内被关闭一段时间。这事让欧洲、加拿大的客户开始严肃讨论「主权 AI」——一个随时可能被美国政府叫停的模型,企业怎么敢押注?这是 Anthropic 接下来一年要处理的最大商业问题,比模型本身更棘手。

第四,Anthropic 的「恐惧营销」习惯。 Alex Stamos 直接把 Mythos 的发布形容成「曼哈顿计划在卡通里公布原子弹」,David Sacks 也承认 Anthropic「过往有恐惧营销纪录」。Mythos 的能力是真的,但每次发新模型都先吓一遍政府和华尔街,这种节奏感本身就是产品策略的一部分。

结语:编程模型的格局又被改了一次

从 2024 年中 Claude 3.5 Sonnet 把 GPT-4o 在 SWE-bench 上拍翻开始,Anthropic 在编程这条赛道上就一直有种「闷头练功」的姿态。Fable 5 / Mythos 5 这一波,本质上是把过去一年半积累的工程能力、对齐能力、Agent 长任务能力一次性兑现。

对开发者来说,结论很直接:如果你在做需要长链路工具调用的代码 Agent,现在没有理由不切到 Fable 5;如果你只是写写 CRUD、调调 prompt,Sonnet 4.6 仍然是性价比最高的选择。GPT-5.4 在通用对话和创意写作上还守得住,Gemini 3.1 Pro 在多模态和超长上下文上是另一种解法——三家分庭抗礼的格局在 2026 下半年大概率会维持。

但只要 Stripe 那个「一天迁完 5000 万行代码」的案例还在被复现,「编程场景默认用 Claude」这件事,就会被越来越多团队写进技术选型文档里。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: