商汤甩出 Flash-Lite:轻量多模态智能体,Token 限免开跑

模型上新

商汤今日发布 SenseNova 6.7 Flash-Lite 原生多模态智能体模型,主打办公长链路任务,Token 消耗较纯文本智能体直降 60%,并同步开放 Token Plan 限时免费,配套 SenseNova-Skills 在 GitHub 开源。

商汤甩出 Flash-Lite:轻量多模态智能体,Token 限免开跑

5 月 8 日,商汤把日日新的牌桌又翻了一面——发布 SenseNova 6.7 Flash-Lite,一款明确瞄准"真实工作流"的轻量级原生多模态智能体模型,同时上线 SenseNova Token Plan 并限时免费,配套的 SenseNova-Skills 全线在 GitHub 开源。

这次发布的关键词不是参数、不是分数,而是"省"——Token 省 60%,参数也省,但智能体能力反而往上跳了一档。对于做 Agent 应用的开发者来说,这是今年比较少见的一次"性价比驱动"的发布。

SenseNova 6.7 Flash-Lite 模型发布主视觉

不再是"看图说话",而是"看懂屏幕再动手"

过去两年里,多模态模型大多走的是"视觉 Encoder + LLM"的拼接路线——图像先被转成一段文本/向量描述,再交给语言模型推理。这套架构的好处是工程上干净,坏处是中间那层"翻译"会丢信息:复杂网页的 DOM 嵌套、财报里那种密密麻麻的多级表头、PPT 母版的层级关系,转一道手就糊了。

商汤这次明确说,Flash-Lite 取消了视觉转文本的中间层,走的是原生多模态架构。换句话说,模型直接"看像素"做推理,而不是先看一段被别的模型嚼过的文字描述。这对 Agent 类任务的影响是直接的:

  • 网页操作时,Agent 能直接对应到布局坐标,而不是靠 OCR + 文本定位猜按钮在哪;
  • 处理 Excel、财报 PDF 时,对合并单元格、跨页表格、图表标注这类"非线性结构"鲁棒性更强;
  • 长链路任务里,每一步的视觉中间状态都能被复用,不用反复调 OCR/Caption。

这也是为什么官方敢把 Token 消耗节约的数字写到 60%——视觉转文本那一层本身就是 token 大户,砍掉之后,长任务里省下来的不是个位数百分比。

"看、想、做"一体化,瞄准的是办公生产力

Flash-Lite 不是通用聊天模型,定位非常明确:办公场景下的长链路 Agent。商汤给出的典型工作流是这样一条:

一份原始行情 Excel → 数据洞察 → 行业研究 → PPT 汇报

听起来像是"又一个 PPT 生成器",但细节挺有意思。官方给的 demo 案例是:基于风电事业部 10 份月度 Excel、932 条绩效记录,Agent 自动统一表结构、做月度趋势/等级分布/岗位对比,期间还要自主处理字体缺失、绘图报错、变量丢失这种典型的脏活。用户反馈图表异常时,Agent 能回溯到数据索引层定位 MultiIndex 错误——这个动作很关键,意味着模型不只是顺序执行,而是有 "回溯-校验" 的闭环。

做过 Agent 应用的都知道,长链路任务真正崩盘的地方从来不是 reasoning,是中间某一步报了个 KeyError 之后整个 trace 散架。Flash-Lite 强调的能力,恰恰是这种"出错-定位-修复"的弹性。

商汤在 10 项 Benchmark 上声称同级别多项 SOTA,并没有跟 GPT-4o、Claude 这种第一梯队硬刚——人家也没必要。Flash-Lite 的对标位是 "轻量+高频" 那一档,配合毫秒级反馈延迟,更适合塞进高频交互的生产环境,而不是去打榜。

Flash-Lite 在办公长链路任务中的执行流程示意

SenseNova-Skills:把模型能力切成乐高块

光有模型不够,从模型到场景的最后一公里向来是国内大模型最难啃的部分。商汤这次的解法是把核心能力封装成 Cowork-Skills 体系,8 项可组合的 Skill 组件,分理解、执行、生成三层,并整体在 GitHub 开源。

粗略看了下这套 Skill 的设计:

  • 理解层:材料分析、表格理解与图像分析
  • 执行层:多源检索整合、数据分析结论
  • 生成层:PPT 生成、PPT 编辑优化、报告撰写、Infographic 生成

关键在"可组合"——单独调用解决单点任务(比如就要个 Infographic),自由组合就能跑通买方/卖方级的研究闭环。这种把模型能力做成"乐高块"的思路,比单纯发个 Agent 框架要务实,开发者可以按需引用,不用绑定整套 SDK。

开源在 OpenSenseNova/SenseNova-Skills 仓库,对接的就是 Flash-Lite 和 U1 Fast 这套底座。值得一提的是,PPT 编辑那个 Skill 支持"对话式改稿"——内容改写、结构调整、风格统一、补页都能聊着完成,这玩意如果稳定,比让 Agent 重新生成一遍 PPT 实用得多。

Token Plan:限免,而且没有那么多坑

商业化这块,商汤同步推了 SenseNova Token Plan,目前是公测限免:

  • Free 档:每模型每 5 小时刷新 1500 次调用额度,无门槛
  • 覆盖模型:SenseNova 6.7 Flash-Lite 与 SenseNova U1 Fast
  • 原生支持 Cowork-Skills 体系
  • 支持 Hermes Agent 与 OpenClaw 快速接入
  • 最多 20 个 API Key

后续会推出 Lite、Pro 等付费档。1500 次/5 小时这个额度,对个人开发者跑跑 Demo、做做 PoC 完全够用,对中小团队做内部工具的灰度也能撑。

接口完全 OpenAI 兼容,base URL 是 https://token.sensenova.cn/v1,model id 直接写 sensenova-6.7-flash-lite,支持 image_url 块传图、流式输出、JSON mode、tool calling 这些标准能力,没有什么自定义协议要适配——这点比某些国产模型友好太多了。

怎么看这次发布

把这次更新放到大盘里看,今年国内大模型厂商的策略已经很清晰地分流了:一拨继续卷参数和 SOTA(追第一梯队闭源),一拨走开源生态(Qwen、DeepSeek 那条路),还有一拨——商汤现在走的——是 "垂直场景 + 轻量模型 + Skill 化" 的工程路线。

Flash-Lite 这次的几个判断点:

  1. 原生多模态架构是对的方向。视觉转文本中间层确实是 Agent 任务的瓶颈,GPT-4o、Gemini 早就这么做了,国内模型跟上是迟早的事,商汤这次算是把这条路在轻量级模型上跑通了。
  2. Skill 开源是聪明做法。模型本身闭源,能力组件开源,开发者用得顺手又能给商汤导用量,这套打法比纯 API 售卖要黏。
  3. Token Plan 的免费档有诚意,但真正的考验是 Lite/Pro 档定价,能不能在和通义、豆包、DeepSeek 的价格战里站住。
  4. 办公场景是个红海,钉钉、飞书、WPS 都在做自己的 Agent,商汤这种独立模型厂要切进去,需要更强的合作伙伴生态。

对开发者来说,最实际的建议是:如果你正在做文档处理、表格分析、PPT 自动化这类工作流类应用,Flash-Lite 值得花一个下午跑一轮 benchmark——尤其是那些之前用 GPT-4o 但被 token 账单劝退的项目,60% 的节省不是小数。

参考来源