商汤日日新 SenseNova-U1 Pro 将于7月启动邀请测试，定位为「理解·生成·行动」原生统一的多模态智能体基座，对标 GPT-Image 2，试图在智能体基础设施层卡位。

商汤U1 Pro下月邀测：要做智能体时代的底座

商汤把下一张牌摊开了。

6月25日，商汤日日新 SenseNova-U1 Pro 正式曝光，定位为「业界首个以理解·生成·行动原生统一为内核的多模态智能体基座」。按计划，这款模型将在7月启动邀请测试。

这不是一次常规的模型迭代。从命名到定位，商汤明确要在智能体（Agent）的基础设施层卡位。

商汤日日新 SenseNova-U1 Pro 产品概念图，展示「理解·生成·行动」三位一体架构

一、「原生统一」到底在说什么

先拆解那句绕口的定位——「理解·生成·行动原生统一」。

过去两年，多模态模型的演进路径大致分两派：

拼接派：先训练一个理解模型（比如能看懂图片、视频），再接一个生成模型（比如能画图、生成视频），最后用某种中间层把它们串起来。GPT-4V + DALL·E 3 的早期组合、Gemini 1.0 的部分架构，都带有这种痕迹。

原生派：从预训练阶段就让模型同时学习理解和生成，不靠后期拼接。GPT-4o 是这条路线的标志性产品，输入输出都走同一套神经网络，响应速度和一致性明显更好。

商汤这次加了个「行动」。

所谓「行动」，指的是模型能直接调用工具、操作界面、执行任务。这在技术上叫 function calling 或 tool use，但商汤想表达的是更深一层的意思：不是模型输出一段 JSON 然后让外部程序去执行，而是模型本身就具备规划和执行的能力。

打个比方：

传统多模态模型像一个「顾问」，你问它怎么订机票，它告诉你步骤
带 function calling 的模型像一个「助理」，它能帮你查航班、填表单，但每一步都要你确认
商汤想做的「智能体基座」更像一个「代理人」，你说「帮我订下周去上海最便宜的机票」，它自己规划、执行、遇到问题自己调整

这三者的区别不在于单点能力，而在于自主性的梯度。

二、为什么现在做智能体基座

时间点很有意思。

2024年是「智能体元年」——至少PPT上是这么写的。但实际落地情况相当骨感。绝大多数智能体产品还停留在「演示很惊艳、日常不能用」的阶段，核心原因有三个：

1. 基础模型不够可靠

智能体的本质是「模型当大脑，工具当手脚」。但如果大脑时不时犯糊涂——理解错用户意图、规划出不可行的步骤、执行时漏掉关键操作——整个系统就垮了。

现有的解决方案是加「护栏」：多轮确认、人工兜底、限制操作范围。但这会把智能体变成「智障体」，用户体验大打折扣。

2. 多模态能力碎片化

真实世界的任务往往涉及多种信息形态。比如「帮我把这张发票录入报销系统」，需要：

看懂发票图片（视觉理解）
理解报销系统的界面（UI 理解）
填写表单、点击按钮（行动执行）
遇到异常时判断怎么处理（推理决策）

如果这些能力来自不同模型、通过 API 拼接，延迟会很高，错误会累积，体验会很差。

3. 工具调用是「附加功能」而非「原生能力」

大多数模型的 function calling 是后期微调加上去的，本质上是让模型学会输出特定格式的文本。这导致两个问题：

模型并不真正「理解」工具能做什么，只是学会了在特定情况下输出特定格式
复杂任务需要多步骤工具调用时，模型的规划能力不够

商汤选择在这个节点推 U1 Pro，押的是一个判断：智能体落地的瓶颈不在应用层，在基础模型层。

与其在上层做各种补丁，不如从底层重新设计一个「原生为智能体而生」的模型。

三、对标 GPT-Image 2 意味着什么

多家媒体报道中提到，商汤明确将 GPT-Image 2 作为对标对象。

这个对标选得很聪明，也很冒险。

GPT-Image 2 是 OpenAI 今年推出的原生图像生成能力，集成在 GPT-4o 中。它最大的特点不是生成质量（虽然质量也很好），而是与对话的无缝融合：

你可以在对话中随时让它画图，不用切换工具
它能基于对话上下文理解你想要什么，不用写复杂的 prompt
生成的图可以继续编辑，模型记得之前的版本

换句话说，GPT-Image 2 证明了一件事：多模态不应该是「多个模态」，而应该是「一个模型、多种表达」。

商汤对标这个，等于是在说：我们的 U1 Pro 也要做到这种「原生统一」的体验，而且要在「行动」维度上更进一步。

但风险也很明显：OpenAI 的原生多模态是建立在海量数据、巨大算力、长期积累之上的。商汤能否在技术上真正做到「原生统一」而不是「深度拼接」，要等实测才知道。

四、商汤的智能体布局

这不是商汤第一次提智能体。

从公开信息看，商汤的智能体布局分三层：

基础设施层：大模型 + 训推一体

商汤有自己的算力基础设施（大装置），也有全栈的模型训练和推理能力。这是做智能体基座的前提——如果模型和推理平台来自不同供应商，优化空间会很有限。

模型层：日日新系列

日日新（SenseNova）是商汤的大模型品牌，涵盖语言、视觉、多模态等多个系列。U1 Pro 是最新的旗舰，定位智能体基座。

从命名看，「U」可能代表 Unified（统一）或 Universal（通用），强调的是多模态能力的整合。

应用层：小浣熊等产品

商汤的桌面智能体产品「小浣熊」已经服务超过 2000 万用户，企业客户超过 1 万家。这是一个不小的数字。

更重要的是，这些用户产生的反馈可以回流到模型训练中。智能体产品最难的不是技术，是获取真实场景下的失败案例——用户在什么情况下放弃了？哪些任务模型完成不了？哪些操作容易出错？

有 2000 万用户的产品，意味着商汤有持续的数据飞轮。

商汤智能体产品矩阵，展示从基础设施到应用层的完整布局

五、技术细节猜测

商汤还没公布 U1 Pro 的技术细节，但基于「原生统一」的定位和行业趋势，可以做一些合理推测：

架构层面

统一的 Transformer 骨干网络：理解和生成共享大部分参数，只在输入输出层做模态适配。这是实现「原生统一」的主流方案。

多模态 tokenizer：图像、音频、视频都转换成 token 序列，与文本 token 混合处理。这样模型才能真正「同时」处理多种模态，而不是分开处理再合并。

内置的工具调用模块：不是通过 prompt engineering 让模型学会输出 JSON，而是在架构层面就设计工具调用的能力。可能借鉴了 Toolformer 等论文的思路，让模型在预训练阶段就学习什么时候、怎么调用工具。

训练层面

大规模多任务预训练：除了传统的语言建模、图像-文本对齐，还要加入大量的「任务完成」数据。比如「给定一个网页截图和一个目标，输出应该点击哪里」这类数据。

强化学习微调：智能体的核心能力是「达成目标」，这很难用传统的监督学习优化。强化学习（RLHF 或其变体）几乎是必选项。

模拟环境训练：让模型在模拟的操作系统、浏览器、APP 中练习执行任务。这需要大量的工程投入，但能显著提升模型的实操能力。

推理层面

流式执行：智能体不能等所有步骤都规划好再执行，要边规划边执行，遇到意外能实时调整。这对推理框架的要求很高。

多级缓存：智能体任务往往跨越多轮对话、涉及大量上下文。怎么高效管理这些上下文，是工程上的大挑战。

工具调用优化：减少模型调用外部工具的延迟，可能需要把常用工具「内化」到模型中，或者设计更高效的调用协议。

六、竞争格局分析

智能体基座这个赛道，玩家不少，但真正能打的不多。

国际玩家

OpenAI：GPT-4o 是目前最强的多模态基座，Operator 是官方智能体产品。但 OpenAI 的重心似乎不在 toB 的智能体基座，更多是 toC 的产品化。

Anthropic：Claude 3.5 的 Computer Use 功能是智能体方向的重要探索，证明了让模型直接操作电脑的可行性。但 Anthropic 的风格偏保守，推进速度不算快。

Google：Gemini 系列的多模态能力很强，但智能体方向的产品化落地不明显。Google 似乎更想把 AI 能力整合进自家产品（Search、Workspace），而不是做通用智能体基座。

国内玩家

字节跳动：豆包模型在 C 端流量很大，但智能体方向的布局不清晰。字节的优势是流量和场景，劣势是技术底蕴相对薄。

阿里：通义千问系列进步明显，开源生态做得不错。但阿里似乎更聚焦于模型本身，智能体基座的故事讲得不多。

百度：文心一言迭代很快，有搜索场景的加持。但百度在 toB 市场的品牌力不够强，限制了智能体基座的推广。

商汤：模型能力可能不是第一梯队，但胜在全栈自研（算力+模型+应用）和 toB 基因。如果 U1 Pro 真能做到「原生统一」的体验，在企业智能体市场有机会。

商汤的差异化

商汤选择「智能体基座」这个定位，是在避开正面硬刚 GPT-4、Claude 的语言能力，转而强调「行动」这个新维度。

这是一个聪明的策略：

语言能力的差距很难在短期内弥补，OpenAI 的数据和算力优势太大
但「行动」能力是新战场，大家都在探索，没有绝对的领先者
中国市场对本土智能体基座有天然需求（数据合规、响应速度、本地化服务）

当然，策略聪明不等于能成功。最终还是要看产品。

七、企业级市场的机会

说几个 U1 Pro 可能切入的场景：

1. RPA 升级

RPA（机器人流程自动化）是个成熟市场，但传统 RPA 有明显局限：

需要预先定义每一步操作，遇到界面变化就挂
不能处理非结构化输入，比如「帮我处理这封邮件」
维护成本高，流程稍微改动就要重新配置

基于多模态智能体的「新一代 RPA」可以解决这些问题：

模型能理解界面，不怕界面改版
模型能理解自然语言指令，不需要精确定义每一步
模型能处理异常情况，不会因为一点意外就卡住

这是一个存量替换的市场，规模不小。

2. 企业助理

想象一个真正有用的企业 AI 助理：

你说「帮我把上个月的销售数据做成周报」，它自动登录 CRM、导出数据、生成图表、写成文档
你说「安排下周三和张总的会议」，它自动查日历、找空闲时间、发邮件、创建会议
你说「这个客户的合同快到期了，提醒我跟进」，它自动设置提醒、准备相关资料

现有的企业 AI 助理大多只能做到「回答问题」，做不到「完成任务」。智能体基座可以改变这一点。

3. 工业检测升级

商汤的传统强项是视觉 AI，在工业检测领域有大量落地。智能体基座可以把这个场景升级：

不只是「检测出缺陷」，还能「判断缺陷类型、严重程度、可能原因」
不只是「输出报告」，还能「自动录入系统、触发后续流程」
不只是「单点检测」，还能「综合分析、发现规律、预警风险」

从「视觉 AI」到「视觉智能体」，是一次本质的升级。

八、邀测策略猜测

7月启动「邀请测试」，这个时间点和方式都值得琢磨。

为什么是邀测而不是公测

几个可能的原因：

产能有限：智能体基座的推理成本通常比普通对话模型高很多（需要更长的上下文、更多的工具调用、更复杂的规划）。在产能爬坡阶段，只能服务有限用户。

需要深度合作：智能体的价值要在具体场景中才能体现，纯 API 调用很难验证效果。邀测可以和重点客户深度合作，打磨产品。

控制风险：智能体直接操作系统、执行任务，如果出问题后果比聊天机器人严重得多。邀测阶段可以在可控范围内发现和修复问题。

制造稀缺性：这是营销层面的考虑，限量邀测可以制造话题、筛选高质量用户。

什么样的客户会被邀请

猜测几类优先级较高的客户：

商汤现有大客户：已经在用商汤其他产品的企业，切换成本低
RPA 厂商：可以把 U1 Pro 作为底层能力，升级自己的产品
垂直行业头部玩家：比如金融、医疗、制造，能提供高质量的场景反馈
开发者社区意见领袖：能帮助传播、发现问题、贡献最佳实践

九、开发者该关注什么

如果你是开发者，对 U1 Pro 感兴趣，建议关注几个点：

API 设计

智能体基座的 API 会比普通对话模型复杂。需要关注：

工具定义的格式：怎么描述一个工具的功能、参数、返回值
执行过程的可观测性：能不能看到模型的规划步骤、每一步的执行结果
错误处理机制：执行失败了怎么办、怎么回滚、怎么重试
权限控制：怎么限制模型能操作的范围，防止越权

上下文管理

智能体任务往往需要很长的上下文：

用户的原始指令
当前环境的状态（比如网页截图、系统信息）
历史操作记录
工具返回的结果

怎么高效管理这些上下文、怎么控制成本，是实际使用中的大问题。

评测标准

智能体模型的评测和传统模型很不一样：

传统模型看「回答对不对」
智能体模型要看「任务完成了没有」

后者更难评测，因为需要真实的执行环境。商汤会不会提供标准的评测基准、评测工具，值得关注。

成本结构

智能体的成本结构和普通对话不同：

单次对话可能涉及多次模型调用（规划、执行、检查）
需要更长的上下文窗口
可能有额外的工具调用成本

商汤会怎么定价、有没有包月方案、企业客户有没有特殊优惠，都会影响落地。

十、一些冷思考

最后说几点不那么乐观的：

智能体还不成熟

尽管各家都在推智能体，但实话说，这个技术还在早期。Claude 的 Computer Use、OpenAI 的 Operator，用过的人都知道离「好用」还有距离。

商汤作为追赶者，要做出超越领先者的智能体基座，难度可想而知。

「原生统一」可能是营销话术

「原生统一」听起来很高级，但实际实现有多少是真正的架构创新，有多少是工程上的深度整合，要等技术报告出来才知道。

历史上，不少「原生 XX」最后被证明是营销包装。

智能体的护城河不在模型

即使 U1 Pro 的模型能力很强，智能体产品的护城河也更多在：

工具生态：支持多少工具、工具质量如何
场景积累：在多少场景验证过、有多少最佳实践
数据飞轮：用户反馈能不能高效回流到模型改进

这些是商汤需要长期投入的，一个模型发布解决不了。

总的来说，商汤 SenseNova-U1 Pro 是一个值得关注的产品。它代表了国产大模型厂商在智能体方向的探索，也是商汤在激烈竞争中寻找差异化定位的尝试。

7月邀测，看效果。