1200万上下文炸场:Subquadratic 用 SSA 架构掀翻 Transformer
本周二,一家此前几乎没人听说过的迈阿密初创公司 Subquadratic 把整个长上下文赛道的天花板,直接顶穿了。
他们发布了首款模型 SubQ,上下文窗口 1200 万 token——是 GPT-5.5、Claude Opus 4.6 这一代旗舰的 6 到 12 倍。更关键的是,这不是又一个"号称支持百万但用起来稀烂"的营销数字:在 1200 万 token 这个目前没有任何前沿模型能跑的尺度上,SubQ 的大海捞针检索率仍维持在 92.1%。
顺手,他们还在 SWE-bench Verified 上拿了 82.4%,把 Opus 4.6(81.4%)和 Gemini 3.1 Pro(80.6%)也压在身下。
先说清楚:长上下文这事,2026 年还没解决
过去两年,几乎每家厂商都在 PR 稿里把上下文窗口当军备竞赛指标写。但稍微做过 RAG、做过 agent 长程记忆的开发者都知道,标称值和实际可用值是两码事。
衡量"真用得起来"的硬指标是 OpenAI 自家放出来的 MRCR v2(多引用检索)。这个榜目前的状态相当难看:
- GPT-5.5:74.0%(榜首)
- Claude Opus 4.7:32.2%
- 其余模型基本都在 30% 上下徘徊
也就是说,除了 GPT-5.5 还能勉强答得像样,其他模型在长上下文里基本属于"看了等于没看"。MRCR v2 是这一代模型最难看的一块遮羞布。
SubQ 在这一项上拿了 83 分,比 GPT-5.5 高 9 个百分点。这不是边际改进,是把第二名甩开了一个身位。
SSA:不是又一个混合架构
Subquadratic 这家公司只有 11 名博士研究员,团队规模小得不像能干这事的样子。他们押注的方向叫亚二次选择性注意力(Subquadratic Selective Attention, SSA)。
标准 Transformer 的注意力机制,计算和显存开销都是 O(n²)——序列翻一倍,成本翻四倍。这是过去几年所有长上下文方案的根本敌人。业界的常规打法有两条:
- 稀疏/滑窗注意力(Mistral、Longformer 那一脉):牺牲全局视野换效率
- 混合架构(Mamba+Transformer、Jamba 那一类):SSM 处理长程,注意力补细节
联合创始人 Alex Whedon 在发布时直接开怼了第二种:混合模型给你的是标量收益——快一点、省一点,但 scaling law 的曲线形状没变;只有纯亚二次机制,才能改变曲线本身。
SSA 的核心是一个内容依赖的选择机制:对每个 query,动态决定真正需要参与注意力计算的 key/value 子集,让计算和显存随上下文长度线性增长而不是平方。听起来和 NSA、MoBA 那一类思路有亲缘关系,但 Subquadratic 强调他们是从底向上完全围绕 SSA 训出来的,不是在稠密注意力上打补丁。
速度数据也对得上理论:
- 128K 上下文:比稠密注意力快 7.2 倍
- 1M 上下文:快 52.2 倍
- 12M 上下文:稠密注意力根本跑不动
基准成绩拆开看
光看长上下文容易被怀疑"是不是只在长序列上特化",所以 SubQ 把短上下文和代码能力的牌也一起亮了:
| 基准 | SubQ | 对照 |
|---|---|---|
| RULER @128K | 97.1 | Opus 4.6: 94.8 |
| MRCR v2 | 83 | GPT-5.5: 74 |
| 大海捞针 @12M | 92.1% | 无对手 |
| SWE-bench Verified | 82.4% | Opus 4.6: 81.4 / Gemini 3.1 Pro: 80.6 |
SWE-bench 这一项尤其值得注意。一家全新架构的初创第一款模型就在 agentic coding 上压过 Anthropic 和 Google 的旗舰,意味着 SSA 不仅在长程检索上能打,模型本身的推理和工具调用质量也站得住。
产品形态:API + Agent + Search
Subquadratic 这次没有走纯模型公司的老路,发布日就把上层应用一起端出来了:
- SubQ API:1200 万 token 上下文,按官方说法成本"显著低于"现有前沿模型
- SubQ Code:编码 agent,主打把整个大型代码库塞进上下文
- SubQ Search:深度研究工具,对标 Perplexity / OpenAI Deep Research
1200 万 token 是什么概念?粗略换算大概是 9000 万字英文 / 4500 万字中文,足够把 Linux kernel 的核心子系统、或者一家中型公司过去三年的全部 Slack 记录、或者《战争与和平》塞进去 50 遍。对于做 codebase-level agent、长文档审阅、法律和金融场景的团队,这是真正能改变工作流的能力——前提是检索质量真能维持在 92%。
而且公司放话,5000 万 token 的版本很快就来。
该信几分?
冷静一点说,SubQ 的数据漂亮得让人想多问几个问题:
- 基准是自评的。MRCR v2、SWE-bench 这些都是公开榜,但 Subquadratic 自己跑自己报,第三方复现要等几周
- 没有公开技术报告全文,目前只有发布博客和访谈中的架构性描述。SSA 的具体形式、训练数据规模、模型参数量都还没披露
- 11 人团队 + 全新架构这个组合本身在历史上成功率不高,过去两年至少有四五家"线性注意力杀手"最终没能 scale 上去
但反过来看,过去半年长上下文的实际进展几乎停滞——大家都在比谁的窗口数字更大,没人解决 MRCR 这种硬指标。SubQ 哪怕只兑现一半承诺,也已经是 2026 年到目前为止架构层面最有意思的一次发布。
如果 SSA 的可复现性和长期 scaling 能撑住,Transformer 这十年统治可能真的要松动一次了。这次不是"挑战者出现了"的标题党,而是榜单上确确实实多了一个数字。
OpenAI Hub 后续会跟进 SubQ 的接入进度,届时可以用同一个 Key 直接对比 SubQ、GPT-5.5、Claude Opus 4.6、Gemini 3.1 Pro 在你自己业务长上下文上的表现——这种横评在 1200 万 token 这个量级上,过去是做不到的。
参考来源
- 领先于Transformer!新架构首个1200万上下文模型SubQ - 知乎专栏:中文社区对 SubQ 架构和发布会的整理
- 上下文窗口已被粉碎:Subquadratic 首次推出 1200 万 token 窗口模型 - 掘金:包含完整基准数据和 Alex Whedon 关于混合架构的表态