AI 快讯商汤U1 Pro下月邀测:要做智能体时代的底座
模型上新

商汤U1 Pro下月邀测:要做智能体时代的底座

2026-06-25T13:05:40.610Z
商汤U1 Pro下月邀测:要做智能体时代的底座

商汤日日新 SenseNova-U1 Pro 将于7月启动邀请测试,定位为「理解·生成·行动」原生统一的多模态智能体基座,对标 GPT-Image 2,试图在智能体基础设施层卡位。

商汤U1 Pro下月邀测:要做智能体时代的底座

商汤把下一张牌摊开了。

6月25日,商汤日日新 SenseNova-U1 Pro 正式曝光,定位为「业界首个以理解·生成·行动原生统一为内核的多模态智能体基座」。按计划,这款模型将在7月启动邀请测试。

这不是一次常规的模型迭代。从命名到定位,商汤明确要在智能体(Agent)的基础设施层卡位。

商汤日日新 SenseNova-U1 Pro 产品概念图,展示「理解·生成·行动」三位一体架构

一、「原生统一」到底在说什么

先拆解那句绕口的定位——「理解·生成·行动原生统一」。

过去两年,多模态模型的演进路径大致分两派:

拼接派:先训练一个理解模型(比如能看懂图片、视频),再接一个生成模型(比如能画图、生成视频),最后用某种中间层把它们串起来。GPT-4V + DALL·E 3 的早期组合、Gemini 1.0 的部分架构,都带有这种痕迹。

原生派:从预训练阶段就让模型同时学习理解和生成,不靠后期拼接。GPT-4o 是这条路线的标志性产品,输入输出都走同一套神经网络,响应速度和一致性明显更好。

商汤这次加了个「行动」。

所谓「行动」,指的是模型能直接调用工具、操作界面、执行任务。这在技术上叫 function calling 或 tool use,但商汤想表达的是更深一层的意思:不是模型输出一段 JSON 然后让外部程序去执行,而是模型本身就具备规划和执行的能力

打个比方:

  • 传统多模态模型像一个「顾问」,你问它怎么订机票,它告诉你步骤
  • 带 function calling 的模型像一个「助理」,它能帮你查航班、填表单,但每一步都要你确认
  • 商汤想做的「智能体基座」更像一个「代理人」,你说「帮我订下周去上海最便宜的机票」,它自己规划、执行、遇到问题自己调整

这三者的区别不在于单点能力,而在于自主性的梯度

二、为什么现在做智能体基座

时间点很有意思。

2024年是「智能体元年」——至少PPT上是这么写的。但实际落地情况相当骨感。绝大多数智能体产品还停留在「演示很惊艳、日常不能用」的阶段,核心原因有三个:

1. 基础模型不够可靠

智能体的本质是「模型当大脑,工具当手脚」。但如果大脑时不时犯糊涂——理解错用户意图、规划出不可行的步骤、执行时漏掉关键操作——整个系统就垮了。

现有的解决方案是加「护栏」:多轮确认、人工兜底、限制操作范围。但这会把智能体变成「智障体」,用户体验大打折扣。

2. 多模态能力碎片化

真实世界的任务往往涉及多种信息形态。比如「帮我把这张发票录入报销系统」,需要:

  • 看懂发票图片(视觉理解)
  • 理解报销系统的界面(UI 理解)
  • 填写表单、点击按钮(行动执行)
  • 遇到异常时判断怎么处理(推理决策)

如果这些能力来自不同模型、通过 API 拼接,延迟会很高,错误会累积,体验会很差。

3. 工具调用是「附加功能」而非「原生能力」

大多数模型的 function calling 是后期微调加上去的,本质上是让模型学会输出特定格式的文本。这导致两个问题:

  • 模型并不真正「理解」工具能做什么,只是学会了在特定情况下输出特定格式
  • 复杂任务需要多步骤工具调用时,模型的规划能力不够

商汤选择在这个节点推 U1 Pro,押的是一个判断:智能体落地的瓶颈不在应用层,在基础模型层

与其在上层做各种补丁,不如从底层重新设计一个「原生为智能体而生」的模型。

三、对标 GPT-Image 2 意味着什么

多家媒体报道中提到,商汤明确将 GPT-Image 2 作为对标对象。

这个对标选得很聪明,也很冒险。

GPT-Image 2 是 OpenAI 今年推出的原生图像生成能力,集成在 GPT-4o 中。它最大的特点不是生成质量(虽然质量也很好),而是与对话的无缝融合

  • 你可以在对话中随时让它画图,不用切换工具
  • 它能基于对话上下文理解你想要什么,不用写复杂的 prompt
  • 生成的图可以继续编辑,模型记得之前的版本

换句话说,GPT-Image 2 证明了一件事:多模态不应该是「多个模态」,而应该是「一个模型、多种表达」

商汤对标这个,等于是在说:我们的 U1 Pro 也要做到这种「原生统一」的体验,而且要在「行动」维度上更进一步。

但风险也很明显:OpenAI 的原生多模态是建立在海量数据、巨大算力、长期积累之上的。商汤能否在技术上真正做到「原生统一」而不是「深度拼接」,要等实测才知道。

四、商汤的智能体布局

这不是商汤第一次提智能体。

从公开信息看,商汤的智能体布局分三层:

基础设施层:大模型 + 训推一体

商汤有自己的算力基础设施(大装置),也有全栈的模型训练和推理能力。这是做智能体基座的前提——如果模型和推理平台来自不同供应商,优化空间会很有限。

模型层:日日新系列

日日新(SenseNova)是商汤的大模型品牌,涵盖语言、视觉、多模态等多个系列。U1 Pro 是最新的旗舰,定位智能体基座。

从命名看,「U」可能代表 Unified(统一)或 Universal(通用),强调的是多模态能力的整合。

应用层:小浣熊等产品

商汤的桌面智能体产品「小浣熊」已经服务超过 2000 万用户,企业客户超过 1 万家。这是一个不小的数字。

更重要的是,这些用户产生的反馈可以回流到模型训练中。智能体产品最难的不是技术,是获取真实场景下的失败案例——用户在什么情况下放弃了?哪些任务模型完成不了?哪些操作容易出错?

有 2000 万用户的产品,意味着商汤有持续的数据飞轮。

商汤智能体产品矩阵,展示从基础设施到应用层的完整布局

五、技术细节猜测

商汤还没公布 U1 Pro 的技术细节,但基于「原生统一」的定位和行业趋势,可以做一些合理推测:

架构层面

统一的 Transformer 骨干网络:理解和生成共享大部分参数,只在输入输出层做模态适配。这是实现「原生统一」的主流方案。

多模态 tokenizer:图像、音频、视频都转换成 token 序列,与文本 token 混合处理。这样模型才能真正「同时」处理多种模态,而不是分开处理再合并。

内置的工具调用模块:不是通过 prompt engineering 让模型学会输出 JSON,而是在架构层面就设计工具调用的能力。可能借鉴了 Toolformer 等论文的思路,让模型在预训练阶段就学习什么时候、怎么调用工具。

训练层面

大规模多任务预训练:除了传统的语言建模、图像-文本对齐,还要加入大量的「任务完成」数据。比如「给定一个网页截图和一个目标,输出应该点击哪里」这类数据。

强化学习微调:智能体的核心能力是「达成目标」,这很难用传统的监督学习优化。强化学习(RLHF 或其变体)几乎是必选项。

模拟环境训练:让模型在模拟的操作系统、浏览器、APP 中练习执行任务。这需要大量的工程投入,但能显著提升模型的实操能力。

推理层面

流式执行:智能体不能等所有步骤都规划好再执行,要边规划边执行,遇到意外能实时调整。这对推理框架的要求很高。

多级缓存:智能体任务往往跨越多轮对话、涉及大量上下文。怎么高效管理这些上下文,是工程上的大挑战。

工具调用优化:减少模型调用外部工具的延迟,可能需要把常用工具「内化」到模型中,或者设计更高效的调用协议。

六、竞争格局分析

智能体基座这个赛道,玩家不少,但真正能打的不多。

国际玩家

OpenAI:GPT-4o 是目前最强的多模态基座,Operator 是官方智能体产品。但 OpenAI 的重心似乎不在 toB 的智能体基座,更多是 toC 的产品化。

Anthropic:Claude 3.5 的 Computer Use 功能是智能体方向的重要探索,证明了让模型直接操作电脑的可行性。但 Anthropic 的风格偏保守,推进速度不算快。

Google:Gemini 系列的多模态能力很强,但智能体方向的产品化落地不明显。Google 似乎更想把 AI 能力整合进自家产品(Search、Workspace),而不是做通用智能体基座。

国内玩家

字节跳动:豆包模型在 C 端流量很大,但智能体方向的布局不清晰。字节的优势是流量和场景,劣势是技术底蕴相对薄。

阿里:通义千问系列进步明显,开源生态做得不错。但阿里似乎更聚焦于模型本身,智能体基座的故事讲得不多。

百度:文心一言迭代很快,有搜索场景的加持。但百度在 toB 市场的品牌力不够强,限制了智能体基座的推广。

商汤:模型能力可能不是第一梯队,但胜在全栈自研(算力+模型+应用)和 toB 基因。如果 U1 Pro 真能做到「原生统一」的体验,在企业智能体市场有机会。

商汤的差异化

商汤选择「智能体基座」这个定位,是在避开正面硬刚 GPT-4、Claude 的语言能力,转而强调「行动」这个新维度。

这是一个聪明的策略:

  • 语言能力的差距很难在短期内弥补,OpenAI 的数据和算力优势太大
  • 但「行动」能力是新战场,大家都在探索,没有绝对的领先者
  • 中国市场对本土智能体基座有天然需求(数据合规、响应速度、本地化服务)

当然,策略聪明不等于能成功。最终还是要看产品。

七、企业级市场的机会

说几个 U1 Pro 可能切入的场景:

1. RPA 升级

RPA(机器人流程自动化)是个成熟市场,但传统 RPA 有明显局限:

  • 需要预先定义每一步操作,遇到界面变化就挂
  • 不能处理非结构化输入,比如「帮我处理这封邮件」
  • 维护成本高,流程稍微改动就要重新配置

基于多模态智能体的「新一代 RPA」可以解决这些问题:

  • 模型能理解界面,不怕界面改版
  • 模型能理解自然语言指令,不需要精确定义每一步
  • 模型能处理异常情况,不会因为一点意外就卡住

这是一个存量替换的市场,规模不小。

2. 企业助理

想象一个真正有用的企业 AI 助理:

  • 你说「帮我把上个月的销售数据做成周报」,它自动登录 CRM、导出数据、生成图表、写成文档
  • 你说「安排下周三和张总的会议」,它自动查日历、找空闲时间、发邮件、创建会议
  • 你说「这个客户的合同快到期了,提醒我跟进」,它自动设置提醒、准备相关资料

现有的企业 AI 助理大多只能做到「回答问题」,做不到「完成任务」。智能体基座可以改变这一点。

3. 工业检测升级

商汤的传统强项是视觉 AI,在工业检测领域有大量落地。智能体基座可以把这个场景升级:

  • 不只是「检测出缺陷」,还能「判断缺陷类型、严重程度、可能原因」
  • 不只是「输出报告」,还能「自动录入系统、触发后续流程」
  • 不只是「单点检测」,还能「综合分析、发现规律、预警风险」

从「视觉 AI」到「视觉智能体」,是一次本质的升级。

八、邀测策略猜测

7月启动「邀请测试」,这个时间点和方式都值得琢磨。

为什么是邀测而不是公测

几个可能的原因:

产能有限:智能体基座的推理成本通常比普通对话模型高很多(需要更长的上下文、更多的工具调用、更复杂的规划)。在产能爬坡阶段,只能服务有限用户。

需要深度合作:智能体的价值要在具体场景中才能体现,纯 API 调用很难验证效果。邀测可以和重点客户深度合作,打磨产品。

控制风险:智能体直接操作系统、执行任务,如果出问题后果比聊天机器人严重得多。邀测阶段可以在可控范围内发现和修复问题。

制造稀缺性:这是营销层面的考虑,限量邀测可以制造话题、筛选高质量用户。

什么样的客户会被邀请

猜测几类优先级较高的客户:

  • 商汤现有大客户:已经在用商汤其他产品的企业,切换成本低
  • RPA 厂商:可以把 U1 Pro 作为底层能力,升级自己的产品
  • 垂直行业头部玩家:比如金融、医疗、制造,能提供高质量的场景反馈
  • 开发者社区意见领袖:能帮助传播、发现问题、贡献最佳实践

九、开发者该关注什么

如果你是开发者,对 U1 Pro 感兴趣,建议关注几个点:

API 设计

智能体基座的 API 会比普通对话模型复杂。需要关注:

  • 工具定义的格式:怎么描述一个工具的功能、参数、返回值
  • 执行过程的可观测性:能不能看到模型的规划步骤、每一步的执行结果
  • 错误处理机制:执行失败了怎么办、怎么回滚、怎么重试
  • 权限控制:怎么限制模型能操作的范围,防止越权

上下文管理

智能体任务往往需要很长的上下文:

  • 用户的原始指令
  • 当前环境的状态(比如网页截图、系统信息)
  • 历史操作记录
  • 工具返回的结果

怎么高效管理这些上下文、怎么控制成本,是实际使用中的大问题。

评测标准

智能体模型的评测和传统模型很不一样:

  • 传统模型看「回答对不对」
  • 智能体模型要看「任务完成了没有」

后者更难评测,因为需要真实的执行环境。商汤会不会提供标准的评测基准、评测工具,值得关注。

成本结构

智能体的成本结构和普通对话不同:

  • 单次对话可能涉及多次模型调用(规划、执行、检查)
  • 需要更长的上下文窗口
  • 可能有额外的工具调用成本

商汤会怎么定价、有没有包月方案、企业客户有没有特殊优惠,都会影响落地。

十、一些冷思考

最后说几点不那么乐观的:

智能体还不成熟

尽管各家都在推智能体,但实话说,这个技术还在早期。Claude 的 Computer Use、OpenAI 的 Operator,用过的人都知道离「好用」还有距离。

商汤作为追赶者,要做出超越领先者的智能体基座,难度可想而知。

「原生统一」可能是营销话术

「原生统一」听起来很高级,但实际实现有多少是真正的架构创新,有多少是工程上的深度整合,要等技术报告出来才知道。

历史上,不少「原生 XX」最后被证明是营销包装。

智能体的护城河不在模型

即使 U1 Pro 的模型能力很强,智能体产品的护城河也更多在:

  • 工具生态:支持多少工具、工具质量如何
  • 场景积累:在多少场景验证过、有多少最佳实践
  • 数据飞轮:用户反馈能不能高效回流到模型改进

这些是商汤需要长期投入的,一个模型发布解决不了。


总的来说,商汤 SenseNova-U1 Pro 是一个值得关注的产品。它代表了国产大模型厂商在智能体方向的探索,也是商汤在激烈竞争中寻找差异化定位的尝试。

7月邀测,看效果。

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: