商汤开源SenseNova-U1：NEO-unify架构砍掉编解码器重写多模态范式

商汤科技开源原生多模态大模型 SenseNova-U1，基于 NEO-unify 架构彻底移除视觉编解码器，实现理解与生成统一，达到开源模型 SOTA 水平，海光 DCU 已率先完成适配。

砍掉所有中间编码器，商汤重写多模态游戏规则

4 月 27 日，商汤科技正式推出并开源新一代原生多模态大模型 SenseNova-U1。这不是又一个在现有范式上堆参数的模型——它背后的 NEO-unify 架构，直接把多模态模型里沿用多年的视觉编码器（VE）和 VAE 全部砍掉了。

同日，海光 DCU 宣布率先完成对 SenseNova-U1 的全量适配，成为国内首批跑通该模型的国产芯片厂商。

这件事值得展开说说。

SenseNova-U1 架构示意图，展示 NEO-unify 无编解码器的端到端多模态处理流程

为什么要干掉编解码器？

先回顾一下当前多模态模型的主流做法。

过去几年，无论是 GPT-4V、Gemini 还是开源阵营的 LLaVA、Qwen-VL，多模态模型基本遵循一个默认范式：

视觉侧用一个预训练好的视觉编码器（比如 CLIP ViT、SigLIP）把图像压缩成 token
中间加一个投影层或适配器，把视觉 token 映射到语言模型的语义空间
语言模型负责理解和推理
如果要生成图像，再接一个 VAE 或扩散模型做解码

这套流程能跑，但问题越来越明显：

第一，视觉编码器是预训练冻结的，它的表征能力上限就是模型的视觉理解上限。你用 CLIP 做编码器，模型就继承了 CLIP 的所有偏见和盲区。

第二，理解和生成是割裂的。理解走编码器，生成走解码器，两条路径之间缺乏深度交互。模型「看懂」一张图和「画出」一张图，用的是完全不同的表征体系。

第三，这种拼接式架构让端到端训练变得困难。编码器、投影层、语言模型、解码器，每个模块的梯度流动和学习节奏都不一样，联合优化的工程复杂度很高。

商汤的判断是：与其在这个范式里修修补补，不如从架构层面重来。

NEO-unify 到底做了什么

NEO-unify 的核心思路可以用一句话概括：让一个统一的 Transformer 直接处理所有模态的原始信号，不需要任何外挂的编解码器。

这听起来简单，做起来需要解决几个关键问题。

原生视觉基元

传统做法是把图像切成 patch，过一个 ViT 得到视觉 token。NEO-unify 的做法不同——它在注意力机制和位置编码层面做了底层创新，构建了一种「原生基元」，让模型能够直接在 patch 级别处理视觉信息，不需要经过一个独立的视觉编码器做预处理。

打个比方：传统方案像是请了一个翻译，先把图像「翻译」成语言模型能懂的格式，再送进去处理。NEO-unify 则是让模型自己学会了「看」，不需要翻译。

统一的语义空间

没有了编解码器作为中间桥梁，视觉和语言的语义对齐怎么做？

NEO-unify 在语义映射层面做了重新设计。具体来说，它通过统一的 token 化方案和共享的注意力机制，让视觉 token 和语言 token 在同一个语义空间里交互。模型不再需要「先理解图像，再用语言描述」这种两步走的过程，而是在处理的每一层都在做跨模态的融合。

理解与生成的统一

这是 NEO-unify 最有野心的部分。

当前大多数模型要么擅长理解（看图说话），要么擅长生成（文生图），能同时做好两件事的模型很少。原因就在于理解和生成用的是不同的模块，优化目标也不同。

NEO-unify 把理解和生成统一到同一个模型、同一套参数里。模型既能看懂一张图并回答问题，也能根据文字描述生成图像，而且这两种能力共享底层表征。这意味着模型对视觉世界的「理解」可以直接指导它的「生成」，反过来也一样。

训练效率的提升

一个值得注意的数据：根据商汤此前公布的信息，NEO 架构的训练仅需传统方案 1/10 的数据量。

这不难理解。传统方案里，视觉编码器需要大量图文对做预训练，投影层需要对齐数据做微调，语言模型需要指令数据做适配——每个模块都有自己的数据需求。NEO-unify 是端到端的，一套数据从头训到尾，数据利用效率自然更高。

性能表现：开源 SOTA

商汤称 SenseNova-U1 达到了开源模型的 SOTA 水平。

虽然具体的 benchmark 数据还需要等社区复现验证，但从架构设计的合理性来看，这个说法有一定可信度。NEO-unify 解决的是多模态模型的结构性瓶颈，而不是简单地堆数据或堆参数。当架构本身不再是瓶颈时，模型的能力上限确实会提高。

当然，「SOTA」这个词在 2026 年已经有点通货膨胀了。每周都有新模型声称 SOTA，关键还是要看实际使用中的表现。社区的评测和反馈会在接下来几周给出更客观的答案。

海光 DCU 适配：国产算力生态的信号

海光 DCU 在 Day 0 就完成了对 SenseNova-U1 的全量适配，这件事本身也值得关注。

过去两年，国产 AI 芯片一直面临一个尴尬：硬件性能在追赶，但软件生态跟不上。很多开源模型发布时只支持 NVIDIA GPU，国产芯片要等几周甚至几个月才能跑通。

海光这次能做到 Day 0 适配，说明两件事：

商汤在模型开发阶段就考虑了国产芯片的兼容性，这是有意为之的生态策略
海光 DCU 的软件栈成熟度在提升，至少对 Transformer 类模型的支持已经比较完善

对于需要在国产算力上部署多模态模型的团队来说，SenseNova-U1 + 海光 DCU 的组合提供了一个开箱即用的选项。

跟竞品比怎么样？

把 SenseNova-U1 放到当前的多模态模型格局里看：

闭源阵营里，GPT-4o 和 Gemini 2.5 都已经实现了原生多模态，但它们的架构细节不公开，也无法本地部署。

开源阵营里，主流方案还是「视觉编码器 + 语言模型」的拼接式架构。Qwen-VL 系列、InternVL、LLaVA-OneVision 都是这个路线。它们的优势是成熟稳定，社区支持好；劣势是架构上限受限于视觉编码器的能力。

SenseNova-U1 走的是一条不同的路。它的优势在于架构的统一性和端到端训练的效率；潜在的风险在于，全新架构意味着社区积累少，工具链和最佳实践都需要从头建立。

如果你是做多模态应用的开发者，我的建议是：

如果你的场景主要是视觉理解（图像问答、文档解析），现有的成熟方案（Qwen-VL、InternVL）仍然是稳妥选择
如果你需要理解和生成的统一能力，或者对训练效率有要求，SenseNova-U1 值得认真评估
如果你在国产算力环境下工作，这可能是目前最省心的选择之一

开源策略的考量

商汤选择开源 SenseNova-U1，背后有明确的商业逻辑。

作为一家以 AI 平台和解决方案为主营业务的公司，商汤需要开发者生态。开源一个有技术差异化的模型，能吸引开发者在商汤的技术栈上构建应用，进而带动其云服务和工具链的使用。

从技术传播的角度看，NEO-unify 这种架构级的创新，如果不开源，很难获得社区的验证和改进。开源让全球的研究者都能在这个架构上做实验，反过来加速架构本身的迭代。

商汤与南洋理工大学的合作也值得一提。学术机构的参与保证了研究的严谨性和论文的公开性，这对建立技术可信度很重要。

对多模态领域的影响

往大了说，SenseNova-U1 代表的是多模态模型架构演进的一个方向：从拼接走向原生。

这个方向不是商汤独创的。Meta 的 Chameleon、Google 的 Gemini 都在往原生多模态的方向走。但在开源领域，真正做到「无编解码器」的端到端多模态模型，SenseNova-U1 是比较早的一个。

如果 NEO-unify 架构被社区验证有效，它可能会影响接下来一批开源多模态模型的设计选择。至少，「是否还需要一个独立的视觉编码器」这个问题，现在有了一个可以参考的反面案例。

当然，架构革新从论文到生产还有很长的路。模型的鲁棒性、推理效率、在各种边缘场景下的表现，都需要时间来验证。但至少，商汤给出了一个有说服力的起点。

小结

商汤 SenseNova-U1 的发布，核心看点不在于又多了一个开源多模态模型，而在于 NEO-unify 架构对现有范式的挑战。砍掉编解码器、端到端统一理解与生成、训练数据需求降低到 1/10——这些如果都能在社区复现中得到验证，那这确实是一次有意义的架构创新。

海光 DCU 的 Day 0 适配则是另一个积极信号，说明国产 AI 芯片的生态协同在加速。

接下来就看社区的评测结果了。

参考来源

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器 — 知乎专栏，详细解析 NEO-unify 架构设计思路与技术细节

商汤开源SenseNova-U1：砍掉编解码器的多模态新范式