DeepSeek V4 多模态技术报告拆解

模型上新

DeepSeek 正式公布多模态大模型技术报告,提出「视觉原语推理」框架,用点和边界框替代纯文本推理链,以紧凑模型规模在空间推理任务上对标 GPT-5.4 和 Claude Sonnet 4.6。

DeepSeek 公布多模态技术报告:用「视觉原语」重写推理链,小模型硬刚 GPT-5.4

4 月 30 日,DeepSeek 在 GitHub 正式发布了多模态大模型,并同步放出完整技术报告。核心卖点一句话讲完:把点、边界框这些空间标记从输入端拉进推理链,让模型在「想」的过程中能直接指着图说话。

这不是一次常规的模型更新。DeepSeek 团队在报告里直接挑战了当前多模态领域最主流的技术路线——高分辨率裁剪 + 语言链式思维(CoT),认为这条路走到头了。他们给出的替代方案叫「Thinking with Visual Primitives」,视觉原语推理框架。

DeepSeek 多模态模型架构示意图,展示视觉原语如何嵌入推理链路

问题出在哪:不是看不清,是说不清

过去两年,多模态大模型的进化主线是「看得更清楚」。GPT-4o 用高分辨率切片,Gemini 堆视觉 token 数量,Claude 做细粒度图像理解——大家都在解决同一个问题:感知鸿沟,即模型能不能把图里的细节识别出来。

DeepSeek 团队不否认这条路的价值,但他们认为大家集体忽略了一个更致命的瓶颈:参照鸿沟(Referencing Gap)

什么意思?举个例子。你让模型数一张合影里有多少人,模型看清了每张脸,但在推理过程中需要用自然语言描述「左边第三个人的右边那个人」——这种表述本身就是模糊的。人多了之后,语言描述的精度会指数级下降,推理链条在中途就断了。

这不是模型笨,是工具不对。用自然语言做空间推理,就像用文字描述一张电路图——理论上可以,实际上一复杂就崩。

技术报告里给了一个很直观的对比:在需要精确空间参照的计数任务中,传统 CoT 方法随着目标数量增加,准确率断崖式下跌。模型不是没看到目标,而是在推理过程中丢失了对目标位置的追踪。

视觉原语:让模型「指着图想问题」

DeepSeek 的解法思路很清晰——既然语言不够用,就别只用语言。

「Thinking with Visual Primitives」框架的核心操作是:把点(point)和边界框(bounding box)这两种最基础的空间标记,从视觉输入的附属品提升为推理过程中的一等公民。

具体来说,模型在思考过程中可以生成类似这样的推理轨迹:

「图中有多个人物。标记第一个人 [point: (142, 305)],标记第二个人 [point: (267, 298)],第一个人右手持有物体 [bbox: (158, 340, 203, 412)],第二个人左手也持有物体 [bbox: (241, 332, 289, 405)],两个物体在空间上相邻……」

每一步推理都锚定在图像的物理坐标上。模型不再需要用「左边那个人旁边的那个东西」这种模糊表述,而是直接用坐标「指」出来。

这个设计有三层含义:

  • 消歧义:坐标是精确的,不存在「左边第三个」到底是谁的问题
  • 可回溯:推理链的每一步都可以在原图上验证,中间步骤出错能被定位
  • 可组合:点和框可以组合出更复杂的空间关系描述,比如包含、相邻、重叠

如果你熟悉计算机视觉的发展史,会觉得这个思路似曾相识。早期的目标检测模型(YOLO、Faster R-CNN)就是用边界框作为基本输出单元。DeepSeek 做的事情,某种程度上是把这套「指哪打哪」的范式从感知层搬到了推理层。

架构效率:小身板,大能耐

技术报告里最让人意外的数据不是准确率,而是效率。

DeepSeek 的多模态模型在模型规模和图像 token 预算上都显著低于对标的几个前沿模型,但在计数和空间推理这两个最考验多模态能力的基准测试上,做到了与 GPT-5.4、Claude Sonnet 4.6、Gemini-3-Flash 匹配的水平。

报告用了「匹配」而不是「超越」,这个措辞很克制,但背后的信息量很大:

维度 DeepSeek 多模态 对标模型群
模型规模 紧凑(具体参数未完全披露) GPT-5.4 / Claude Sonnet 4.6 / Gemini-3-Flash
图像 token 预算 显著更低 行业常规水平
计数任务 匹配 前沿水平
空间推理 匹配 前沿水平

用更少的视觉 token 达到相同效果,意味着推理成本更低、延迟更短。这对实际部署来说是硬通货。

结合此前 DeepSeek V4 系列的架构信息来看,V4-Pro 总参数 1.6T、激活 49B,V4-Flash 总参数 284B、激活 13B,都采用了 MoE(混合专家)架构。V4 在 token 维度做了激进的压缩,再叠加自研的 DSA 稀疏注意力机制。官方数据显示,1M 上下文下 V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV cache 只有 10%。V4-Flash 更极端——FLOPs 降到 V3.2 的 10%,KV cache 只要 7%。

这套效率优势叠加视觉原语框架,指向的是同一个目标:用更少的计算量做更精确的多模态推理。

为什么这个方向值得关注

多模态大模型的竞争已经进入了一个微妙的阶段。

第一阶段是「能不能看图」——2024 年基本所有主流模型都过了这个门槛。第二阶段是「看得准不准」——高分辨率、细粒度识别,各家都在卷。现在进入第三阶段:看懂之后能不能想明白。

这就是 DeepSeek 报告里反复提到的「System-2 类多模态智能」。System-1 是快速直觉反应(看到猫就知道是猫),System-2 是慢速深度推理(看到一张建筑平面图,判断从 A 房间到 B 房间最短路径)。当前绝大多数多模态模型还停留在 System-1 水平,能识别但不能推理。

视觉原语框架瞄准的就是这个缺口。它的价值不仅在于当前的性能数字,更在于提出了一种可扩展的范式

  1. 原语可以扩展:目前用的是点和框,未来可以加入线段、多边形、甚至三维坐标
  2. 与强化学习兼容:视觉原语的生成可以作为可验证的中间步骤,天然适合 RLHF/RLVF 训练
  3. 跨任务迁移:同一套原语机制可以用于计数、空间推理、图表理解、文档分析等多种场景

放在 V4 大版本里看

DeepSeek V4 系列从 3 月初开始陆续放出信息,到今天技术报告正式公开,拼图逐渐完整。

回顾一下 V4 的核心升级维度:

  • 编程能力:Agentic Coding 评测达到开源最佳,内部已替换为默认编码模型,反馈优于 Sonnet 4.5
  • 长上下文:1M token 全线默认支持,MRCR 1M 拿到 83.5
  • 多模态:今天公布的视觉原语框架,原生多模态架构
  • 世界知识:SimpleQA-Verified 57.9,超过 Opus 4.6 Max 的 46.2 和 GPT-5.4 xHigh 的 45.3

四个方向同时发力,而且每个方向都不是简单的「参数堆上去」,而是有架构层面的创新。编程靠 Agent 适配优化,长上下文靠 DSA 稀疏注意力,多模态靠视觉原语,知识靠更高效的预训练数据配比。

这种「每个方向都有自己的技术故事」的做法,和 OpenAI、Google 那种「一个大模型吃遍所有任务」的路线形成了有趣的对比。孰优孰劣现在下结论还早,但 DeepSeek 的路线在效率上确实更有说服力。

对开发者意味着什么

如果你在做涉及空间理解的多模态应用——比如文档版面分析、工业质检、地图/建筑图纸理解、零售货架识别——视觉原语框架值得重点关注。

传统方案通常是「多模态模型做识别 + 后处理脚本做空间逻辑」,两段式流程。视觉原语的思路是把空间逻辑内化到模型推理过程中,理论上可以减少后处理的复杂度,降低端到端的出错率。

当然,技术报告和实际可用之间还有距离。目前 DeepSeek 已经在网页端上线了「识图模式」,与「快速模式」「专家模式」并列,具备多模态识别能力。API 层面的多模态接口预计会随 V4 系列的正式开放逐步到位。

对于想第一时间体验 DeepSeek V4 多模态能力的开发者,OpenAI Hub 已经支持 DeepSeek 系列模型的 API 调用,后续新模型上线通常也会同步跟进。

一句话总结

DeepSeek 这份技术报告最大的贡献,不是又刷了几个榜单,而是指出了多模态推理的一个结构性盲区——语言不是万能的思维工具,有些问题需要用视觉的方式去想——并给出了一个工程上可行的解法。这个思路如果被验证有效并被广泛采纳,影响的不只是 DeepSeek 一家,而是整个多模态模型的架构设计方向。


参考来源