迈阿密初创公司Subquadratic发布首个基于亚二次稀疏注意力（SSA）架构的前沿模型SubQ，提供1200万token上下文窗口，在MRCR v2、SWE-bench等基准上全面超越GPT-5.5、Opus 4.6和Gemini 3.1 Pro。

1200万上下文炸场：Subquadratic 用 SSA 架构掀翻 Transformer

本周二，一家此前几乎没人听说过的迈阿密初创公司 Subquadratic 把整个长上下文赛道的天花板，直接顶穿了。

他们发布了首款模型 SubQ，上下文窗口 1200 万 token——是 GPT-5.5、Claude Opus 4.6 这一代旗舰的 6 到 12 倍。更关键的是，这不是又一个"号称支持百万但用起来稀烂"的营销数字：在 1200 万 token 这个目前没有任何前沿模型能跑的尺度上，SubQ 的大海捞针检索率仍维持在 92.1%。

顺手，他们还在 SWE-bench Verified 上拿了 82.4%，把 Opus 4.6（81.4%）和 Gemini 3.1 Pro（80.6%）也压在身下。

先说清楚：长上下文这事，2026 年还没解决

过去两年，几乎每家厂商都在 PR 稿里把上下文窗口当军备竞赛指标写。但稍微做过 RAG、做过 agent 长程记忆的开发者都知道，标称值和实际可用值是两码事。

衡量"真用得起来"的硬指标是 OpenAI 自家放出来的 MRCR v2（多引用检索）。这个榜目前的状态相当难看：

GPT-5.5：74.0%（榜首）
Claude Opus 4.7：32.2%
其余模型基本都在 30% 上下徘徊

也就是说，除了 GPT-5.5 还能勉强答得像样，其他模型在长上下文里基本属于"看了等于没看"。MRCR v2 是这一代模型最难看的一块遮羞布。

SubQ 在这一项上拿了 83 分，比 GPT-5.5 高 9 个百分点。这不是边际改进，是把第二名甩开了一个身位。

SSA：不是又一个混合架构

Subquadratic 这家公司只有 11 名博士研究员，团队规模小得不像能干这事的样子。他们押注的方向叫亚二次选择性注意力（Subquadratic Selective Attention, SSA）。

标准 Transformer 的注意力机制，计算和显存开销都是 O(n²)——序列翻一倍，成本翻四倍。这是过去几年所有长上下文方案的根本敌人。业界的常规打法有两条：

稀疏/滑窗注意力（Mistral、Longformer 那一脉）：牺牲全局视野换效率
混合架构（Mamba+Transformer、Jamba 那一类）：SSM 处理长程，注意力补细节

联合创始人 Alex Whedon 在发布时直接开怼了第二种：混合模型给你的是标量收益——快一点、省一点，但 scaling law 的曲线形状没变；只有纯亚二次机制，才能改变曲线本身。

SSA 的核心是一个内容依赖的选择机制：对每个 query，动态决定真正需要参与注意力计算的 key/value 子集，让计算和显存随上下文长度线性增长而不是平方。听起来和 NSA、MoBA 那一类思路有亲缘关系，但 Subquadratic 强调他们是从底向上完全围绕 SSA 训出来的，不是在稠密注意力上打补丁。

速度数据也对得上理论：

128K 上下文：比稠密注意力快 7.2 倍
1M 上下文：快 52.2 倍
12M 上下文：稠密注意力根本跑不动

基准成绩拆开看

光看长上下文容易被怀疑"是不是只在长序列上特化"，所以 SubQ 把短上下文和代码能力的牌也一起亮了：

基准	SubQ	对照
RULER @128K	97.1	Opus 4.6: 94.8
MRCR v2	83	GPT-5.5: 74
大海捞针 @12M	92.1%	无对手
SWE-bench Verified	82.4%	Opus 4.6: 81.4 / Gemini 3.1 Pro: 80.6

SWE-bench 这一项尤其值得注意。一家全新架构的初创第一款模型就在 agentic coding 上压过 Anthropic 和 Google 的旗舰，意味着 SSA 不仅在长程检索上能打，模型本身的推理和工具调用质量也站得住。

产品形态：API + Agent + Search

Subquadratic 这次没有走纯模型公司的老路，发布日就把上层应用一起端出来了：

SubQ API：1200 万 token 上下文，按官方说法成本"显著低于"现有前沿模型
SubQ Code：编码 agent，主打把整个大型代码库塞进上下文
SubQ Search：深度研究工具，对标 Perplexity / OpenAI Deep Research

1200 万 token 是什么概念？粗略换算大概是 9000 万字英文 / 4500 万字中文，足够把 Linux kernel 的核心子系统、或者一家中型公司过去三年的全部 Slack 记录、或者《战争与和平》塞进去 50 遍。对于做 codebase-level agent、长文档审阅、法律和金融场景的团队，这是真正能改变工作流的能力——前提是检索质量真能维持在 92%。

而且公司放话，5000 万 token 的版本很快就来。

该信几分？

冷静一点说，SubQ 的数据漂亮得让人想多问几个问题：

基准是自评的。MRCR v2、SWE-bench 这些都是公开榜，但 Subquadratic 自己跑自己报，第三方复现要等几周
没有公开技术报告全文，目前只有发布博客和访谈中的架构性描述。SSA 的具体形式、训练数据规模、模型参数量都还没披露
11 人团队 + 全新架构这个组合本身在历史上成功率不高，过去两年至少有四五家"线性注意力杀手"最终没能 scale 上去

但反过来看，过去半年长上下文的实际进展几乎停滞——大家都在比谁的窗口数字更大，没人解决 MRCR 这种硬指标。SubQ 哪怕只兑现一半承诺，也已经是 2026 年到目前为止架构层面最有意思的一次发布。

如果 SSA 的可复现性和长期 scaling 能撑住，Transformer 这十年统治可能真的要松动一次了。这次不是"挑战者出现了"的标题党，而是榜单上确确实实多了一个数字。

OpenAI Hub 后续会跟进 SubQ 的接入进度，届时可以用同一个 Key 直接对比 SubQ、GPT-5.5、Claude Opus 4.6、Gemini 3.1 Pro 在你自己业务长上下文上的表现——这种横评在 1200 万 token 这个量级上，过去是做不到的。

参考来源

领先于Transformer！新架构首个1200万上下文模型SubQ - 知乎专栏：中文社区对 SubQ 架构和发布会的整理
上下文窗口已被粉碎：Subquadratic 首次推出 1200 万 token 窗口模型 - 掘金：包含完整基准数据和 Alex Whedon 关于混合架构的表态

1200万上下文炸场：Subquadratic用SSA架构掀翻Transformer