砍掉所有中间编码器,商汤重写多模态游戏规则
4 月 27 日,商汤科技正式推出并开源新一代原生多模态大模型 SenseNova-U1。这不是又一个在现有范式上堆参数的模型——它背后的 NEO-unify 架构,直接把多模态模型里沿用多年的视觉编码器(VE)和 VAE 全部砍掉了。
同日,海光 DCU 宣布率先完成对 SenseNova-U1 的全量适配,成为国内首批跑通该模型的国产芯片厂商。
这件事值得展开说说。

为什么要干掉编解码器?
先回顾一下当前多模态模型的主流做法。
过去几年,无论是 GPT-4V、Gemini 还是开源阵营的 LLaVA、Qwen-VL,多模态模型基本遵循一个默认范式:
- 视觉侧用一个预训练好的视觉编码器(比如 CLIP ViT、SigLIP)把图像压缩成 token
- 中间加一个投影层或适配器,把视觉 token 映射到语言模型的语义空间
- 语言模型负责理解和推理
- 如果要生成图像,再接一个 VAE 或扩散模型做解码
这套流程能跑,但问题越来越明显:
第一,视觉编码器是预训练冻结的,它的表征能力上限就是模型的视觉理解上限。你用 CLIP 做编码器,模型就继承了 CLIP 的所有偏见和盲区。
第二,理解和生成是割裂的。理解走编码器,生成走解码器,两条路径之间缺乏深度交互。模型「看懂」一张图和「画出」一张图,用的是完全不同的表征体系。
第三,这种拼接式架构让端到端训练变得困难。编码器、投影层、语言模型、解码器,每个模块的梯度流动和学习节奏都不一样,联合优化的工程复杂度很高。
商汤的判断是:与其在这个范式里修修补补,不如从架构层面重来。
NEO-unify 到底做了什么
NEO-unify 的核心思路可以用一句话概括:让一个统一的 Transformer 直接处理所有模态的原始信号,不需要任何外挂的编解码器。
这听起来简单,做起来需要解决几个关键问题。
原生视觉基元
传统做法是把图像切成 patch,过一个 ViT 得到视觉 token。NEO-unify 的做法不同——它在注意力机制和位置编码层面做了底层创新,构建了一种「原生基元」,让模型能够直接在 patch 级别处理视觉信息,不需要经过一个独立的视觉编码器做预处理。
打个比方:传统方案像是请了一个翻译,先把图像「翻译」成语言模型能懂的格式,再送进去处理。NEO-unify 则是让模型自己学会了「看」,不需要翻译。
统一的语义空间
没有了编解码器作为中间桥梁,视觉和语言的语义对齐怎么做?
NEO-unify 在语义映射层面做了重新设计。具体来说,它通过统一的 token 化方案和共享的注意力机制,让视觉 token 和语言 token 在同一个语义空间里交互。模型不再需要「先理解图像,再用语言描述」这种两步走的过程,而是在处理的每一层都在做跨模态的融合。
理解与生成的统一
这是 NEO-unify 最有野心的部分。
当前大多数模型要么擅长理解(看图说话),要么擅长生成(文生图),能同时做好两件事的模型很少。原因就在于理解和生成用的是不同的模块,优化目标也不同。
NEO-unify 把理解和生成统一到同一个模型、同一套参数里。模型既能看懂一张图并回答问题,也能根据文字描述生成图像,而且这两种能力共享底层表征。这意味着模型对视觉世界的「理解」可以直接指导它的「生成」,反过来也一样。
训练效率的提升
一个值得注意的数据:根据商汤此前公布的信息,NEO 架构的训练仅需传统方案 1/10 的数据量。
这不难理解。传统方案里,视觉编码器需要大量图文对做预训练,投影层需要对齐数据做微调,语言模型需要指令数据做适配——每个模块都有自己的数据需求。NEO-unify 是端到端的,一套数据从头训到尾,数据利用效率自然更高。
性能表现:开源 SOTA
商汤称 SenseNova-U1 达到了开源模型的 SOTA 水平。
虽然具体的 benchmark 数据还需要等社区复现验证,但从架构设计的合理性来看,这个说法有一定可信度。NEO-unify 解决的是多模态模型的结构性瓶颈,而不是简单地堆数据或堆参数。当架构本身不再是瓶颈时,模型的能力上限确实会提高。
当然,「SOTA」这个词在 2026 年已经有点通货膨胀了。每周都有新模型声称 SOTA,关键还是要看实际使用中的表现。社区的评测和反馈会在接下来几周给出更客观的答案。
海光 DCU 适配:国产算力生态的信号
海光 DCU 在 Day 0 就完成了对 SenseNova-U1 的全量适配,这件事本身也值得关注。
过去两年,国产 AI 芯片一直面临一个尴尬:硬件性能在追赶,但软件生态跟不上。很多开源模型发布时只支持 NVIDIA GPU,国产芯片要等几周甚至几个月才能跑通。
海光这次能做到 Day 0 适配,说明两件事:
- 商汤在模型开发阶段就考虑了国产芯片的兼容性,这是有意为之的生态策略
- 海光 DCU 的软件栈成熟度在提升,至少对 Transformer 类模型的支持已经比较完善
对于需要在国产算力上部署多模态模型的团队来说,SenseNova-U1 + 海光 DCU 的组合提供了一个开箱即用的选项。
跟竞品比怎么样?
把 SenseNova-U1 放到当前的多模态模型格局里看:
闭源阵营里,GPT-4o 和 Gemini 2.5 都已经实现了原生多模态,但它们的架构细节不公开,也无法本地部署。
开源阵营里,主流方案还是「视觉编码器 + 语言模型」的拼接式架构。Qwen-VL 系列、InternVL、LLaVA-OneVision 都是这个路线。它们的优势是成熟稳定,社区支持好;劣势是架构上限受限于视觉编码器的能力。
SenseNova-U1 走的是一条不同的路。它的优势在于架构的统一性和端到端训练的效率;潜在的风险在于,全新架构意味着社区积累少,工具链和最佳实践都需要从头建立。
如果你是做多模态应用的开发者,我的建议是:
- 如果你的场景主要是视觉理解(图像问答、文档解析),现有的成熟方案(Qwen-VL、InternVL)仍然是稳妥选择
- 如果你需要理解和生成的统一能力,或者对训练效率有要求,SenseNova-U1 值得认真评估
- 如果你在国产算力环境下工作,这可能是目前最省心的选择之一
开源策略的考量
商汤选择开源 SenseNova-U1,背后有明确的商业逻辑。
作为一家以 AI 平台和解决方案为主营业务的公司,商汤需要开发者生态。开源一个有技术差异化的模型,能吸引开发者在商汤的技术栈上构建应用,进而带动其云服务和工具链的使用。
从技术传播的角度看,NEO-unify 这种架构级的创新,如果不开源,很难获得社区的验证和改进。开源让全球的研究者都能在这个架构上做实验,反过来加速架构本身的迭代。
商汤与南洋理工大学的合作也值得一提。学术机构的参与保证了研究的严谨性和论文的公开性,这对建立技术可信度很重要。
对多模态领域的影响
往大了说,SenseNova-U1 代表的是多模态模型架构演进的一个方向:从拼接走向原生。
这个方向不是商汤独创的。Meta 的 Chameleon、Google 的 Gemini 都在往原生多模态的方向走。但在开源领域,真正做到「无编解码器」的端到端多模态模型,SenseNova-U1 是比较早的一个。
如果 NEO-unify 架构被社区验证有效,它可能会影响接下来一批开源多模态模型的设计选择。至少,「是否还需要一个独立的视觉编码器」这个问题,现在有了一个可以参考的反面案例。
当然,架构革新从论文到生产还有很长的路。模型的鲁棒性、推理效率、在各种边缘场景下的表现,都需要时间来验证。但至少,商汤给出了一个有说服力的起点。
小结
商汤 SenseNova-U1 的发布,核心看点不在于又多了一个开源多模态模型,而在于 NEO-unify 架构对现有范式的挑战。砍掉编解码器、端到端统一理解与生成、训练数据需求降低到 1/10——这些如果都能在社区复现中得到验证,那这确实是一次有意义的架构创新。
海光 DCU 的 Day 0 适配则是另一个积极信号,说明国产 AI 芯片的生态协同在加速。
接下来就看社区的评测结果了。
参考来源
- 彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器 — 知乎专栏,详细解析 NEO-unify 架构设计思路与技术细节