商汤科技秘密研发多模态设计模型 U1 Pro,由林达华牵头,对标 OpenAI GPT-Image 2。7月启动内测,支持8K分辨率,内部评测称效果接近甚至超越 GPT-Image 2。

商汤押注设计赛道,U1 Pro 对标 GPT-Image 2

商汤科技正在秘密研发一款代号为"U1 Pro"的多模态设计生成模型,由联合创始人、首席科学家林达华牵头,意在对标 OpenAI 旗下 GPT-Image 2。这是商汤日日新模型家族的新成员,预计7月启动内部邀请测试并向客户提供服务。

知情人士透露,在大量内部评测中,U1 Pro 在相同提示词下生成的图片与 GPT-Image 2 效果高度接近,甚至在某些场景更具优势。这个消息释放的信号很明确:在 Anthropic、智谱等顶尖 AI 公司引领编程赛道之外,设计正在成为多模态模型的下一个主战场。

不只是生图,要做"会思考的设计师"

U1 Pro 的定位不是又一个文生图工具。商汤把它定义为"会思考"的图像生成模型,主要面向设计场景打造。

这个定位有点意思。过去两年,文生图模型的竞争焦点一直是生成质量——画得像不像、细节够不够精致。但 GPT-Image 2 出现后,游戏规则变了。它在 LMSYS Chatbot Arena 的文生图评分中,在图像质量、文字渲染和指令遵循三个维度大幅领先 Google 的 Nano Banana 2,在设计行业引发追捧。

GPT-Image 2 的核心优势不在于单张图片有多精美,而在于它能理解复杂的设计需求,把抽象的意图转化成具体的视觉呈现。商汤显然也看到了这个方向。知情人士的说法是,U1 Pro 能像"会思考的设计师"一样,实现设计、生成、评审的长程循环。这意味着模型不只是执行指令,还要具备设计决策能力——理解设计目标、评估生成结果、迭代优化方案。

支持 8K 分辨率输出也是个关键能力。设计场景对分辨率的要求远高于一般的内容创作,无论是海报、UI 界面还是产品图,低分辨率的输出基本没有实用价值。

U1 Pro 设计生成流程示意图

商汤的多模态路径:从原生架构到图文思维链

要理解 U1 Pro,需要回溯商汤在多模态方向上的技术积累。

商汤从一开始就选择了原生多模态路径,而不是在语言模型上做适配。这个决定在2023年初就定下了,当时他们在思考一个问题:当视觉模型和语言模型在尺度定律上相会,会带来什么?

原生训练的资源消耗远超适配训练,但商汤做了两个重要实验,验证了这条路的价值。第一,在合适数据配比条件下,融合训练的模型在各自任务上都比单一模型表现更好,尤其在处理带文本的图片、截图、专业图表等场景下显著超越当时的图文问答模型。第二,语言和视觉模态的融合应该在预训练中段开始,过早或过晚都达不到最佳效果。

更重要的技术突破是图文交错思维链。传统的思维链(Chain-of-Thought)是纯文本的,商汤把这个机制扩展到了多模态。在图文交错思维链中,模型可以在推理过程中生成和引用图像,比如在解数学题时画辅助图,在做UI设计时生成草图再迭代。

这个能力需要通过强化学习来放大作用。商汤在训练中解决了三个关键问题:动作空间的定义(如何在思维链中插入图像)、混合奖励信号的设计(不同任务采用不同的验证器和奖励模型)、以及 Agentic RL 系统的优化(处理 GPU 和 CPU 之间的图像传输成本)。

经过多轮强化学习后,模型在数理、代码、GUI 操作、图表分析、高阶任务等维度的提升尤为显著。这套技术积累,正是 U1 Pro 的底层支撑。

商汤已经开源了 U1,但 U1 Pro 是另一回事

需要澄清的是,商汤已经开源了 SenseNova U1 的轻量版本 U1 Lite,包括 8B 参数的 U1-8B-MoT 和 38B 总参数但激活只有 3B 的 U1-A3B-MoT。这两个版本在 GitHub 和 Hugging Face 上开源,被称为"开源版的 GPT-Image 2"。

U1 Lite 的表现确实不错。它能边写边画,图文逻辑严丝合缝,在信息图、连续图文等场景下的表现拿下了开源 SOTA。比如让它画一张 AI 大模型从训练到推理的工作原理图,它能用轻松有趣的风格把复杂流程可视化,适合完全不懂技术的人看懂。

但 U1 Pro 是完全不同的定位。开源的 U1 Lite 走的是本地部署、低成本推理的路线,面向的是开发者和对成本敏感的场景。U1 Pro 则是闭源的商业级模型,对标 GPT-Image 2,面向企业客户和专业设计场景,在模型规模、能力边界、生成质量上都是另一个量级。

从命名也能看出端倪。U1 Lite 的两个版本都是 MoT(Mixture of Thoughts)架构,强调的是效率和可部署性。U1 Pro 的"Pro"后缀,意味着它是旗舰级产品,不会走开源路线。

设计赛道的竞争才刚开始

GPT-Image 2 的刷屏证明了设计是个有价值的方向。但这个赛道的竞争格局还远未定型。

OpenAI 在设计方向的优势是明显的。GPT-Image 2 不只是生成质量高,更重要的是它和 GPT 系列的语言模型深度整合,能在复杂的多轮对话中理解设计意图、接受反馈、迭代优化。这种端到端的设计能力,是单纯的文生图模型做不到的。业内预测 OpenAI 近期会发布新的 AI 生图模型,将设计作为重点发力方向。

商汤的优势在于多模态技术积累和对设计场景的深度理解。从 U1 Lite 的开源表现看,商汤在图文交错生成、信息可视化等方向已经有了扎实的技术基础。U1 Pro 如果能把这些能力放大到 GPT-Image 2 的水平,再结合对国内设计行业需求的理解(比如对中文字体、排版习惯、文化元素的处理),是有机会在国内市场站稳脚跟的。

但挑战也很明显。第一是算力。林达华在《迈向多模态通用智能:商汤的思考》这篇长文中坦言,原生多模态训练的资源消耗巨大,而且随着模型规模增长,成本会越来越高。GPT-4.5 和 Grok 4 的价单已经反映了这个问题。商汤要在这个方向上持续投入,需要很强的资源支持。

第二是数据。设计场景需要大量的高质量专业数据,尤其是设计思维链——不只是最终的设计成果,还要包括设计过程中的决策逻辑、迭代轨迹、评审反馈。这类数据很难大规模获取,而且质量参差不齐。商汤虽然建立了复杂的多模态数据生产体系,每天可以生产 5T tokens,但专业高阶数据的构建依然是个长期挑战。

第三是生态。OpenAI 的优势不只是模型本身,更在于围绕 ChatGPT 和 API 建立的开发者生态。商汤需要在这方面补课。好消息是,U1 Lite 的开源版本已经在 GitHub 和 Hugging Face 上获得了一定关注,商汤还开源了面向 Agent 运行时的 AIGC 技能库 SenseNova-Skills,允许开发者把 U1 的能力接入到智能体工作流中。这是个正确的方向,但要形成真正的生态效应,还需要更多时间。

OpenAI 可能也在憋大招

GPT-Image 2 发布已经有一段时间,按照 OpenAI 的节奏,新的生图模型不会太远。业内普遍预测,OpenAI 会把设计作为重点发力方向,可能会推出专门针对设计场景优化的版本,或者把生图能力更深度地整合到 GPT 系列中。

如果这个预测成真,竞争会更激烈。OpenAI 的优势在于资源充足、技术积累深厚、生态完善。但这也给商汤这样的追赶者留出了时间窗口。在 OpenAI 发布新模型之前,如果 U1 Pro 能顺利内测并推向市场,建立起一定的客户基础和口碑,就有机会在国内设计市场占据一席之地。

更长远来看,设计赛道可能会出现分化。高端市场会被 OpenAI、Anthropic 这样的头部玩家占据,他们提供的是端到端的设计解决方案,价格不菲但能力全面。中端市场会是商汤、智谱这类国内顶尖团队的战场,他们需要在性价比和本地化需求上做文章。低端市场则会被开源模型和各种创业公司瓜分。

商汤选择同时推进 U1 Lite(开源)和 U1 Pro(闭源)两条线,其实是在对冲风险。开源版本可以快速扩大影响力、吸引开发者、获取反馈;闭源版本则瞄准高价值客户,追求商业回报。这个策略在当前的市场环境下是理性的。

从语言模型到多模态,再到智能体

林达华在长文中提到一个观点:多模态是从 LLM 到 AGI 的必经之路。这个判断的依据是,世界的信息以多元形态存在,人工智能若要具备通用性,必须能处理多模态信息。

但只有多模态还不够。林达华还提到了多智能体的路径。要在特定方向突破人类水平,有两种可能:打造"超人"(单个超级模型)或打造"团队"(多个智能体协作)。前者资源消耗巨大、研发周期长、成本高昂;后者更务实,而且在多个专业领域已经显示出巨大潜力。Google DeepMind 获得数学国际奥赛金牌的 Deep Think 就是多智能体架构,商汤的小浣熊背后也是多智能体。

这个思路其实指向了 AI 应用的下一阶段:不是单一模型包打天下,而是多个专业模型协作完成复杂任务。在设计场景下,可能需要一个模型负责理解需求、一个模型负责生成初稿、一个模型负责评审反馈、一个模型负责迭代优化。U1 Pro 如果要真正做到"会思考的设计师",可能最终也会走向这个方向。

商汤在架构设计上已经在为这个方向做准备。他们重新思考了视觉编码器和 MLLM 主干的功能定位,认为"眼睛"和"大脑"的设计应该有本质区别。这种模块化的思路,为未来的多智能体协作打下了基础。

结语

U1 Pro 的消息虽然还处于保密阶段,但它反映的趋势是清晰的:多模态模型的竞争正在从通用能力转向垂直场景,设计是第一个被重点攻坚的方向。

商汤能否在这个赛道上站稳脚跟,取决于三件事:第一,U1 Pro 的实际表现能否达到内部评测的水平;第二,能否在 OpenAI 发布新模型之前抢占市场;第三,能否在成本、本地化、生态建设上形成差异化优势。

7月的内测会是第一个关键节点。如果 U1 Pro 真能在设计场景下接近或超越 GPT-Image 2,商汤就拿到了入场券。但要真正在这个赛道上跑赢,还需要更长时间的验证。

参考来源

消息称商汤科技正研发新图像模型:代号 U1 Pro,内部称对标 OpenAI - IT之家独家报道,披露 U1 Pro 研发细节
开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测 - 爱范儿对开源版 U1 Lite 的详细测评

商汤押注设计赛道，U1 Pro 对标 GPT-Image 2

商汤押注设计赛道,U1 Pro 对标 GPT-Image 2

不只是生图,要做"会思考的设计师"

商汤的多模态路径:从原生架构到图文思维链

商汤已经开源了 U1,但 U1 Pro 是另一回事

设计赛道的竞争才刚开始

OpenAI 可能也在憋大招

从语言模型到多模态,再到智能体

结语

参考来源

相关推荐

RoboScience发布Visics大模型：VLOA架构首次公开

Anthropic 指控阿里蒸馏攻击：2880 万次交互背后的 AI 军备竞赛

谷歌 Gemini 核心团队连环崩盘

联系我们