DeepSeek 正式公布多模态大模型技术报告，提出「视觉原语推理」框架，用点和边界框替代纯文本推理链，以紧凑模型规模在空间推理任务上对标 GPT-5.4 和 Claude Sonnet 4.6。

DeepSeek 公布多模态技术报告：用「视觉原语」重写推理链，小模型硬刚 GPT-5.4

4 月 30 日，DeepSeek 在 GitHub 正式发布了多模态大模型，并同步放出完整技术报告。核心卖点一句话讲完：把点、边界框这些空间标记从输入端拉进推理链，让模型在「想」的过程中能直接指着图说话。

这不是一次常规的模型更新。DeepSeek 团队在报告里直接挑战了当前多模态领域最主流的技术路线——高分辨率裁剪 + 语言链式思维（CoT），认为这条路走到头了。他们给出的替代方案叫「Thinking with Visual Primitives」，视觉原语推理框架。

DeepSeek 多模态模型架构示意图，展示视觉原语如何嵌入推理链路

问题出在哪：不是看不清，是说不清

过去两年，多模态大模型的进化主线是「看得更清楚」。GPT-4o 用高分辨率切片，Gemini 堆视觉 token 数量，Claude 做细粒度图像理解——大家都在解决同一个问题：感知鸿沟，即模型能不能把图里的细节识别出来。

DeepSeek 团队不否认这条路的价值，但他们认为大家集体忽略了一个更致命的瓶颈：参照鸿沟（Referencing Gap）。

什么意思？举个例子。你让模型数一张合影里有多少人，模型看清了每张脸，但在推理过程中需要用自然语言描述「左边第三个人的右边那个人」——这种表述本身就是模糊的。人多了之后，语言描述的精度会指数级下降，推理链条在中途就断了。

这不是模型笨，是工具不对。用自然语言做空间推理，就像用文字描述一张电路图——理论上可以，实际上一复杂就崩。

技术报告里给了一个很直观的对比：在需要精确空间参照的计数任务中，传统 CoT 方法随着目标数量增加，准确率断崖式下跌。模型不是没看到目标，而是在推理过程中丢失了对目标位置的追踪。

视觉原语：让模型「指着图想问题」

DeepSeek 的解法思路很清晰——既然语言不够用，就别只用语言。

「Thinking with Visual Primitives」框架的核心操作是：把点（point）和边界框（bounding box）这两种最基础的空间标记，从视觉输入的附属品提升为推理过程中的一等公民。

具体来说，模型在思考过程中可以生成类似这样的推理轨迹：

「图中有多个人物。标记第一个人 [point: (142, 305)]，标记第二个人 [point: (267, 298)]，第一个人右手持有物体 [bbox: (158, 340, 203, 412)]，第二个人左手也持有物体 [bbox: (241, 332, 289, 405)]，两个物体在空间上相邻……」

每一步推理都锚定在图像的物理坐标上。模型不再需要用「左边那个人旁边的那个东西」这种模糊表述，而是直接用坐标「指」出来。

这个设计有三层含义：

消歧义：坐标是精确的，不存在「左边第三个」到底是谁的问题
可回溯：推理链的每一步都可以在原图上验证，中间步骤出错能被定位
可组合：点和框可以组合出更复杂的空间关系描述，比如包含、相邻、重叠

如果你熟悉计算机视觉的发展史，会觉得这个思路似曾相识。早期的目标检测模型（YOLO、Faster R-CNN）就是用边界框作为基本输出单元。DeepSeek 做的事情，某种程度上是把这套「指哪打哪」的范式从感知层搬到了推理层。

架构效率：小身板，大能耐

技术报告里最让人意外的数据不是准确率，而是效率。

DeepSeek 的多模态模型在模型规模和图像 token 预算上都显著低于对标的几个前沿模型，但在计数和空间推理这两个最考验多模态能力的基准测试上，做到了与 GPT-5.4、Claude Sonnet 4.6、Gemini-3-Flash 匹配的水平。

报告用了「匹配」而不是「超越」，这个措辞很克制，但背后的信息量很大：

| 维度 | DeepSeek 多模态 | 对标模型群 | |------|----------------|------------| | 模型规模 | 紧凑（具体参数未完全披露） | GPT-5.4 / Claude Sonnet 4.6 / Gemini-3-Flash | | 图像 token 预算 | 显著更低 | 行业常规水平 | | 计数任务 | 匹配 | 前沿水平 | | 空间推理 | 匹配 | 前沿水平 |

用更少的视觉 token 达到相同效果，意味着推理成本更低、延迟更短。这对实际部署来说是硬通货。

结合此前 DeepSeek V4 系列的架构信息来看，V4-Pro 总参数 1.6T、激活 49B，V4-Flash 总参数 284B、激活 13B，都采用了 MoE（混合专家）架构。V4 在 token 维度做了激进的压缩，再叠加自研的 DSA 稀疏注意力机制。官方数据显示，1M 上下文下 V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%，KV cache 只有 10%。V4-Flash 更极端——FLOPs 降到 V3.2 的 10%，KV cache 只要 7%。

这套效率优势叠加视觉原语框架，指向的是同一个目标：用更少的计算量做更精确的多模态推理。

为什么这个方向值得关注

多模态大模型的竞争已经进入了一个微妙的阶段。

第一阶段是「能不能看图」——2024 年基本所有主流模型都过了这个门槛。第二阶段是「看得准不准」——高分辨率、细粒度识别，各家都在卷。现在进入第三阶段：看懂之后能不能想明白。

这就是 DeepSeek 报告里反复提到的「System-2 类多模态智能」。System-1 是快速直觉反应（看到猫就知道是猫），System-2 是慢速深度推理（看到一张建筑平面图，判断从 A 房间到 B 房间最短路径）。当前绝大多数多模态模型还停留在 System-1 水平，能识别但不能推理。

视觉原语框架瞄准的就是这个缺口。它的价值不仅在于当前的性能数字，更在于提出了一种可扩展的范式：

原语可以扩展：目前用的是点和框，未来可以加入线段、多边形、甚至三维坐标
与强化学习兼容：视觉原语的生成可以作为可验证的中间步骤，天然适合 RLHF/RLVF 训练
跨任务迁移：同一套原语机制可以用于计数、空间推理、图表理解、文档分析等多种场景

放在 V4 大版本里看

DeepSeek V4 系列从 3 月初开始陆续放出信息，到今天技术报告正式公开，拼图逐渐完整。

回顾一下 V4 的核心升级维度：

编程能力：Agentic Coding 评测达到开源最佳，内部已替换为默认编码模型，反馈优于 Sonnet 4.5
长上下文：1M token 全线默认支持，MRCR 1M 拿到 83.5
多模态：今天公布的视觉原语框架，原生多模态架构
世界知识：SimpleQA-Verified 57.9，超过 Opus 4.6 Max 的 46.2 和 GPT-5.4 xHigh 的 45.3

四个方向同时发力，而且每个方向都不是简单的「参数堆上去」，而是有架构层面的创新。编程靠 Agent 适配优化，长上下文靠 DSA 稀疏注意力，多模态靠视觉原语，知识靠更高效的预训练数据配比。

这种「每个方向都有自己的技术故事」的做法，和 OpenAI、Google 那种「一个大模型吃遍所有任务」的路线形成了有趣的对比。孰优孰劣现在下结论还早，但 DeepSeek 的路线在效率上确实更有说服力。

对开发者意味着什么

如果你在做涉及空间理解的多模态应用——比如文档版面分析、工业质检、地图/建筑图纸理解、零售货架识别——视觉原语框架值得重点关注。

传统方案通常是「多模态模型做识别 + 后处理脚本做空间逻辑」，两段式流程。视觉原语的思路是把空间逻辑内化到模型推理过程中，理论上可以减少后处理的复杂度，降低端到端的出错率。

当然，技术报告和实际可用之间还有距离。目前 DeepSeek 已经在网页端上线了「识图模式」，与「快速模式」「专家模式」并列，具备多模态识别能力。API 层面的多模态接口预计会随 V4 系列的正式开放逐步到位。

对于想第一时间体验 DeepSeek V4 多模态能力的开发者，OpenAI Hub 已经支持 DeepSeek 系列模型的 API 调用，后续新模型上线通常也会同步跟进。

一句话总结

DeepSeek 这份技术报告最大的贡献，不是又刷了几个榜单，而是指出了多模态推理的一个结构性盲区——语言不是万能的思维工具，有些问题需要用视觉的方式去想——并给出了一个工程上可行的解法。这个思路如果被验证有效并被广泛采纳，影响的不只是 DeepSeek 一家，而是整个多模态模型的架构设计方向。

参考来源

IT之家：DeepSeek 公布多模态模型技术报告 — 首发报道，包含技术报告核心内容摘要
知乎：DeepSeek-V4 深度技术报告解读 — 原生多模态架构的详细技术分析
知乎：DeepSeek-V4 技术报告拆解 - 从架构到 Infra — V4 Pro/Flash 双档设计与性能数据解读

DeepSeek V4 多模态技术报告拆解

DeepSeek 公布多模态技术报告：用「视觉原语」重写推理链，小模型硬刚 GPT-5.4

问题出在哪：不是看不清，是说不清

视觉原语：让模型「指着图想问题」

架构效率：小身板，大能耐

为什么这个方向值得关注

放在 V4 大版本里看

对开发者意味着什么

一句话总结

参考来源

相关推荐

大晓开源端侧具身世界模型Kairos 3.0，4B参数干翻Cosmos 2.5

OpenRouter 推出 Fusion API：拼好模打平 Claude Fable 5

QoderWork 给 AI 助理装了个"意识"：会记忆、会反思、会自己长技能

联系我们