SILX AI 发布 Quasar-Preview：18B MoE 架构 + 500 万 Token 长上下文实验...

SILX AI 今日开源 Quasar-Preview，18B 总参/2B 激活的 MoE 架构搭配实验性 5M 上下文窗口，明确表示不参与刷榜，目标是把一套面向长记忆系统的混合架构公开给社区检验。

今天 SILX AI 把酝酿已久的 Quasar 系列基础模型推出了第一版公开预览——Quasar-Preview，直接以 MIT 协议丢上 Hugging Face。和最近几个月动辄宣称"刷爆榜单"的发布不同，SILX 这次开门见山地告诉所有人：这玩意儿不是来打榜的，是来验架构的。

这种坦白其实挺少见。过去一年里，从 DeepSeek-V4-Pro 到百度文心 5.1，再到智谱 GLM-5.1，国内一线团队的发布会基本都在卷分数、卷激活参数效率、卷价格。而 SILX 选了一条相对学术的路：把一套还没跑完训练的混合架构提前开源，让研究者自己拿去拆。

18B 总参、2B 激活，但重点不在这里

先把规格拉一遍：

总参数：约 18B，混合专家（MoE）架构
激活参数：2B 级别
上下文窗口：实验性 5M Token
训练 Token：当前累计 1T–1.5T，其中长上下文扩展路径不足 1B
协议：MIT，完全开源

18B/2B 这个组合放在 2026 年并不算稀奇。Qwen3、DeepSeek 系列、甚至快手前阵子开源的 Keye-VL-2.0-30B-A3B，都在玩"小激活撑大模型"的把戏。真正值得拉出来单说的是后面那串架构名词：Loop Transformer + Quasar 混合注意力 + Quasar/Raven/GLA 混合层 + 稀疏 MoE 路由。

这套搭配看着挺花，但目标只有一个——让长上下文不再是"塞进去就完事"的伪能力。

Quasar-Preview 架构示意图，展示 Loop Transformer 与混合注意力层的堆叠

5M 上下文，怎么实现、又意味着什么

5M Token 这个数字得拆开看。它不是简单地把 RoPE 频率拉一拉、然后宣布"支持"。SILX 用的是 Safe NoPE / DrOPE 风格的阶段性扩展方法——一种近年在长上下文研究里逐渐被验证的路径，核心思路是分阶段地把位置编码"退化"或者"丢弃"，让模型在超长序列下不至于在位置先验上崩盘。

对比一下行业坐标：

2024 年 3 月，Kimi 把无损上下文做到 200 万字时，业界已经觉得是"数量级突破"
Gemini 系列长期把上下文卡在 1M-2M 区间
快手 Keye-VL-2.0 这种新世代多模态模型，256K 已经算"超长"

Quasar-Preview 直接报出 5M，听上去夸张，但 SILX 自己写得很清楚：长上下文扩展路径目前只灌了不到 1B Token。换句话说，这个 5M 现在更像是架构上能跑通的容量上限，而不是工程意义上的"可用质量"。

这也是为什么官方反复强调一句话：Preview 不代表 Quasar 的最终质量。

Loop Transformer 与混合注意力：押注"内存系统"

架构选型里最值得玩味的是 Loop Transformer。这是一个相对小众但思路独特的方向——通过循环展开的方式，让同一组参数在推理时反复处理同一段上下文，从而在不增加参数量的前提下榨取深度。

配合 Quasar 自研的混合注意力，加上 GLA（Gated Linear Attention）这种已经被多家团队验证过的线性注意力变体，整体的取舍逻辑就比较清楚了：

稀疏 MoE 负责拓宽容量——18B 总参提供知识广度
GLA 等线性注意力负责拉长上下文——把 5M 这件事在显存上跑通
Loop Transformer 负责加深推理深度——在不堆参数的前提下增强推理
Quasar/Raven 混合层负责保留全注意力的精度——避免完全线性化后的能力损失

说白了，SILX 想要的是一个为基于记忆的系统（memory-based systems）量身定制的底座。这跟当下 Agent、长程任务、个人助理这类应用的实际需求是对得上的——你不需要模型每次都重新理解 500 万 Token，你需要它能把一段超长状态"装进去"，然后在循环里反复访问。

训练量只有 1.5T Token，意味着什么

参考当下旗舰级开源模型的训练量动辄 10T-20T Token 起步，Quasar-Preview 现在的 1T-1.5T 显然处于"早期"阶段。SILX 自己列出的下一步 roadmap 也印证了这一点：

迭代式子网训练与知识蒸馏
更长的训练周期与更强的后训练
进一步的长上下文扩展训练以及架构更新

从工程节奏看，这个 Preview 更像是一份**"架构白皮书的可执行版"**。研究者可以拿去做 ablation、可以测注意力机制的失效模式、可以验证 Loop Transformer 在 MoE 路由下的稳定性——这些都是论文里跑不动、但工业训练里又值得验证的东西。

跟最近这一波"小激活 MoE"放在一起看

2026 年到目前为止，开源圈的主旋律有两条：一是激活参数越来越小（DeepSeek-V4-Pro 直接把 API 价格砍到原定价的 1/4，背后就是激活效率的红利），二是上下文越拉越长（快手 Keye 的 256K、智谱 GLM-5.1 系列对长文本场景的强化）。

Quasar-Preview 同时押了这两条，但走得更激进：

| 维度 | 主流做法 | Quasar-Preview | |------|---------|----------------| | 激活参数 | 3B-7B | 2B | | 上下文 | 128K-1M | 5M（实验性）| | 注意力 | 全注意力 + 稀疏 | Quasar/Raven/GLA 混合 | | 深度策略 | 堆层 | Loop Transformer 循环 | | 训练成熟度 | 充分预训练 | 1T-1.5T 早期 |

这个对比也解释了为什么 SILX 反复给自己降预期——同时押 4 个未充分验证的方向，意味着这个模型在零样本基准上大概率打不过同体量的成熟模型。但作为一份开源给社区拆解的架构原型，它的信息量比一个跑分高 2 分的常规模型大得多。

给开发者的几条实用建议

如果你今天就打算把 Quasar-Preview 拉下来玩，几个心理预期得先调好：

别拿它跟 GPT、Claude 比对话质量——训练量摆在那
5M 上下文可以试，但别指望它在 4M 之后还保持稳定的检索能力——长上下文路径才喂了不到 1B Token
架构验证价值 > 直接落地价值——更适合做 research 和 finetune 起点，而不是直接上生产
关注后续版本的迭代节奏——MIT 协议加完全开源，意味着这个系列大概率会有 v0.2、v0.3 持续放出

对国内开发者来说，模型可以直接从 Hugging Face 拉取权重做本地推理；如果你日常用的是聚合类 API（比如 OpenAI Hub 这种一个 Key 调 GPT、Claude、Gemini、DeepSeek 的平台），Quasar 这种早期开源模型大概率短期内不会上托管，等它训练量爬到可用区间再说。

写在最后

2026 年的大模型发布会越来越像一场预先编排好的剧本——发布、跑分、PR、降价、API、开源。Quasar-Preview 在这个语境里其实显得有点"不合时宜"：它没有刻意美化的 benchmark，没有令人惊艳的 demo，甚至连训练都还没跑完。SILX 选择把一个半成品丢出来，赌的是社区对架构本身的兴趣。

这种赌法不一定能赢，但起码诚实。对一个想做"内存原生"的模型系列来说，把 5M 上下文的实验路径公开，让研究者帮自己验证那些训练成本太高、单个团队跑不完的方向——这条路其实比闷头训到 10T Token 再放一个 "Quasar-1.0" 出来要聪明得多。

至于这个架构能不能成、Loop Transformer 在 MoE 上有没有戏、5M 上下文是不是真能落地——答案得等 SILX 把训练量灌到 10T 以上再说。今天这个 Preview，只是把那张牌摊开给所有人看了一眼。