1200万上下文炸场:Subquadratic用SSA架构掀翻Transformer

模型上新

迈阿密初创公司Subquadratic发布首个基于亚二次稀疏注意力(SSA)架构的前沿模型SubQ,提供1200万token上下文窗口,在MRCR v2、SWE-bench等基准上全面超越GPT-5.5、Opus 4.6和Gemini 3.1 Pro。

1200万上下文炸场:Subquadratic 用 SSA 架构掀翻 Transformer

本周二,一家此前几乎没人听说过的迈阿密初创公司 Subquadratic 把整个长上下文赛道的天花板,直接顶穿了。

他们发布了首款模型 SubQ,上下文窗口 1200 万 token——是 GPT-5.5、Claude Opus 4.6 这一代旗舰的 6 到 12 倍。更关键的是,这不是又一个"号称支持百万但用起来稀烂"的营销数字:在 1200 万 token 这个目前没有任何前沿模型能跑的尺度上,SubQ 的大海捞针检索率仍维持在 92.1%

顺手,他们还在 SWE-bench Verified 上拿了 82.4%,把 Opus 4.6(81.4%)和 Gemini 3.1 Pro(80.6%)也压在身下。

先说清楚:长上下文这事,2026 年还没解决

过去两年,几乎每家厂商都在 PR 稿里把上下文窗口当军备竞赛指标写。但稍微做过 RAG、做过 agent 长程记忆的开发者都知道,标称值和实际可用值是两码事。

衡量"真用得起来"的硬指标是 OpenAI 自家放出来的 MRCR v2(多引用检索)。这个榜目前的状态相当难看:

  • GPT-5.5:74.0%(榜首)
  • Claude Opus 4.7:32.2%
  • 其余模型基本都在 30% 上下徘徊

也就是说,除了 GPT-5.5 还能勉强答得像样,其他模型在长上下文里基本属于"看了等于没看"。MRCR v2 是这一代模型最难看的一块遮羞布。

SubQ 在这一项上拿了 83 分,比 GPT-5.5 高 9 个百分点。这不是边际改进,是把第二名甩开了一个身位。

SSA:不是又一个混合架构

Subquadratic 这家公司只有 11 名博士研究员,团队规模小得不像能干这事的样子。他们押注的方向叫亚二次选择性注意力(Subquadratic Selective Attention, SSA)

标准 Transformer 的注意力机制,计算和显存开销都是 O(n²)——序列翻一倍,成本翻四倍。这是过去几年所有长上下文方案的根本敌人。业界的常规打法有两条:

  1. 稀疏/滑窗注意力(Mistral、Longformer 那一脉):牺牲全局视野换效率
  2. 混合架构(Mamba+Transformer、Jamba 那一类):SSM 处理长程,注意力补细节

联合创始人 Alex Whedon 在发布时直接开怼了第二种:混合模型给你的是标量收益——快一点、省一点,但 scaling law 的曲线形状没变;只有纯亚二次机制,才能改变曲线本身。

SSA 的核心是一个内容依赖的选择机制:对每个 query,动态决定真正需要参与注意力计算的 key/value 子集,让计算和显存随上下文长度线性增长而不是平方。听起来和 NSA、MoBA 那一类思路有亲缘关系,但 Subquadratic 强调他们是从底向上完全围绕 SSA 训出来的,不是在稠密注意力上打补丁。

速度数据也对得上理论:

  • 128K 上下文:比稠密注意力快 7.2 倍
  • 1M 上下文:快 52.2 倍
  • 12M 上下文:稠密注意力根本跑不动

基准成绩拆开看

光看长上下文容易被怀疑"是不是只在长序列上特化",所以 SubQ 把短上下文和代码能力的牌也一起亮了:

基准 SubQ 对照
RULER @128K 97.1 Opus 4.6: 94.8
MRCR v2 83 GPT-5.5: 74
大海捞针 @12M 92.1% 无对手
SWE-bench Verified 82.4% Opus 4.6: 81.4 / Gemini 3.1 Pro: 80.6

SWE-bench 这一项尤其值得注意。一家全新架构的初创第一款模型就在 agentic coding 上压过 Anthropic 和 Google 的旗舰,意味着 SSA 不仅在长程检索上能打,模型本身的推理和工具调用质量也站得住。

产品形态:API + Agent + Search

Subquadratic 这次没有走纯模型公司的老路,发布日就把上层应用一起端出来了:

  • SubQ API:1200 万 token 上下文,按官方说法成本"显著低于"现有前沿模型
  • SubQ Code:编码 agent,主打把整个大型代码库塞进上下文
  • SubQ Search:深度研究工具,对标 Perplexity / OpenAI Deep Research

1200 万 token 是什么概念?粗略换算大概是 9000 万字英文 / 4500 万字中文,足够把 Linux kernel 的核心子系统、或者一家中型公司过去三年的全部 Slack 记录、或者《战争与和平》塞进去 50 遍。对于做 codebase-level agent、长文档审阅、法律和金融场景的团队,这是真正能改变工作流的能力——前提是检索质量真能维持在 92%。

而且公司放话,5000 万 token 的版本很快就来

该信几分?

冷静一点说,SubQ 的数据漂亮得让人想多问几个问题:

  • 基准是自评的。MRCR v2、SWE-bench 这些都是公开榜,但 Subquadratic 自己跑自己报,第三方复现要等几周
  • 没有公开技术报告全文,目前只有发布博客和访谈中的架构性描述。SSA 的具体形式、训练数据规模、模型参数量都还没披露
  • 11 人团队 + 全新架构这个组合本身在历史上成功率不高,过去两年至少有四五家"线性注意力杀手"最终没能 scale 上去

但反过来看,过去半年长上下文的实际进展几乎停滞——大家都在比谁的窗口数字更大,没人解决 MRCR 这种硬指标。SubQ 哪怕只兑现一半承诺,也已经是 2026 年到目前为止架构层面最有意思的一次发布。

如果 SSA 的可复现性和长期 scaling 能撑住,Transformer 这十年统治可能真的要松动一次了。这次不是"挑战者出现了"的标题党,而是榜单上确确实实多了一个数字。

OpenAI Hub 后续会跟进 SubQ 的接入进度,届时可以用同一个 Key 直接对比 SubQ、GPT-5.5、Claude Opus 4.6、Gemini 3.1 Pro 在你自己业务长上下文上的表现——这种横评在 1200 万 token 这个量级上,过去是做不到的。

参考来源