DeepSeek 识图模式今日正式上线网页和 App 端,标志着国内头部大模型厂商全部完成多模态能力布局。从纯文本推理到图文全能,DeepSeek 用四个月时间补齐了核心能力短板。

DeepSeek 识图模式上线:补齐多模态最后一块拼图

DeepSeek 多模态研究员 Xiaokang Chen 今天(6 月 18 日)确认,识图模式已在网页和 App 端正式上线。这个被称为"鲸鱼开眼"的功能从 4 月底灰度测试到现在,终于走到全量开放这一步。

值得注意的是,这次上线让 DeepSeek 成为国内最后一家补齐视觉理解能力的头部模型厂商。阿里 Qwen-VL、智谱 GLM-V、字节 Doubao、月之暗面 Kimi、MiniMax 混元都在更早的时间点完成了多模态布局。DeepSeek 姗姗来迟,但来得并不晚——从产品节奏看,它在等一个足够成熟的技术方案。

不只是 OCR,是真正的视觉理解

识图模式和快速模式、专家模式并列,成为 DeepSeek 主产品的第三个一级入口。这个设计本身就传递了一个信号:视觉理解不是附属功能,而是独立能力线。

从实测效果看,识图模式的能力边界远超简单的文字提取。有用户上传了一张人物照片并提问"这是什么动作姿势",DeepSeek 思考 8 秒后给出的答案包含了位置分析、手臂姿态、头部朝向、发丝散落状态、着装风格、光影对比等多个维度的拆解,最终判断这是"慵懒风躺姿"或"清冷氛围感姿势",常出现在小红书、抖音的相关标签下。

这种结构化拆解 + 自我复核 + 文化语境识别的组合,已经超出了传统 OCR 的能力层次。DeepSeek 在思考过程中还会列出其他可能的解读("淑女姿势"、"忧郁自拍"),再通过自我修正确定最终答案。这套流程更接近人类理解图片的方式:先观察细节,再综合判断,最后结合文化背景给出解释。

对比来看,早期的视觉语言模型更像是"看图说话"——描述画面中有什么物体、颜色、位置关系。DeepSeek 识图模式走得更远,它在尝试理解画面背后的意图、氛围和文化符号。这对实际应用场景的价值更大:设计师可以用它分析竞品的视觉风格,运营可以用它提取图片中的情绪标签,开发者可以用它做 UI 截图分析。

四个月铺垫,产品节奏清晰

识图模式的上线不是突然冒出来的。往回看,DeepSeek 从 4 月初就开始为这个功能做铺垫。

4 月 8 日,DeepSeek 网页端输入框上方第一次出现了快速模式和专家模式两个图标。这是 DeepSeek 出圈以来第一次在产品界面做能力分层。当时就有技术 KOL 判断:把 Vision 单独列为一个类是很不寻常的设计,如果真的上线,背后支撑它的很可能已经是一个完全功能化的 VLM(视觉语言模型)。

4 月 24 日,DeepSeek-V4 预览版上线,主打百万级长上下文、Agent 能力和推理性能。但 V4 本身没有原生多模态,这在当时被视为明显短板。

4 月 28 日,DeepSeek 多模态团队负责人陈小康在 X 平台发了一张配图:两只蓝色小鲸鱼,左边那只戴着画有"XX"的黑色眼罩,右边那只摘下眼罩露出眼睛。外界普遍解读为"鲸鱼开眼",暗示 DeepSeek 即将获得视觉能力。

4 月 29 日,识图模式开始灰度内测。部分用户在网页端和 App 端看到了第三个标签,鼠标悬停后弹出"图片理解功能内测中"的提示。同一天,V2EX 有开发者发帖称 DeepSeek API 已经返回"识图模式"字段,但调用尚未对外开放。

从 4 月 8 日的分层入口,到 4 月 24 日 V4 纯文本发布,再到 4 月 28 日预告,最后到 4 月 29 日灰度内测——这是一条连续的产品节奏。DeepSeek 没有急着上线一个半成品,而是等技术方案足够成熟后再推向用户。

现在距离灰度内测已经过去一个半月,识图模式终于在 6 月 18 日全量开放。这个时间点选得也很微妙:赶在年中节点前完成多模态能力补齐,为下半年的 Agent 场景和更复杂的应用打下基础。

技术底牌:从 DeepSeek-VL 到 Janus-Pro

DeepSeek 在多模态领域不是新手。早在 2024 年,DeepSeek 就发布过 DeepSeek-VL 系列模型,主打真实世界视觉语言理解,涵盖图表、网页、公式、科学文献、自然图片等场景。

之后又推出 Janus 系列,尝试将多模态理解和视觉生成放入统一框架。Janus-Pro 在 GenEval 图像生成基准上超过了 DALL-E 3 和 Stable Diffusion 3,是当时开源多模态阵营里最受关注的成果之一。

今年 4 月,DeepSeek 公开了一种名为"Thinking with Visual Primitives(以视觉原语思考)"的核心框架。这个框架的核心思路是:不直接让模型"看"整张图片,而是先把图片拆解成一系列视觉原语(基本视觉元素),再让模型基于这些原语进行推理。

这种设计有两个好处:

降低计算成本:处理视觉原语比处理完整图片的计算量小得多,尤其在需要多轮推理的场景下优势明显
提高可解释性:模型的推理过程可以追溯到具体的视觉元素,而不是黑盒输出

从识图模式的实测效果看,这套框架已经在产品层面落地。DeepSeek 在思考过程中会明确列出"躯干角度"、"手臂位置"、"发丝状态"等具体元素,再基于这些元素做综合判断。这种结构化推理正是"视觉原语思考"的体现。

值得注意的是,DeepSeek 多模态团队近期也有人员变动。核心贡献者阮翀今年 4 月加盟自动驾驶公司元戎启行任首席科学家,DeepSeek-OCR 系列核心作者魏浩然也在春节前后离职。但从产品进度看,这些变动没有影响多模态能力的推进节奏。

补齐短板,还是拿到入场券?

识图模式上线后,国内头部模型厂商全部完成了多模态能力布局:

阿里 Qwen:推出多代 Qwen-VL 视觉语言模型,覆盖通用理解、OCR、图表分析等场景
智谱 GLM:GLM-V 贯穿 GLM-4 和 GLM-5 两代,支持图片、视频理解
字节 Doubao:把全模态作为核心定位,覆盖文本、图片、语音、视频
阶跃星辰 Step:Step 3.5 Flash 把全模态能力首次开源
月之暗面 Kimi:同步在视觉理解和 Coding 两条线并行
MiniMax:把视频生成模型作为差异化优势
腾讯混元:Hy3 preview 对标 DeepSeek 和阿里

在这个名单里,DeepSeek 是最后一个补齐视觉理解能力的。但这个"最后"不代表落后,反而可能是一种战略选择。

DeepSeek 的核心优势在推理能力和长上下文。R1 系列在推理任务上的表现已经接近 GPT-4,V4 的百万级长上下文成本控制在行业前列。这两个能力是 DeepSeek 的护城河,也是它在市场上的差异化标签。

在推理和长上下文这两个核心能力站稳之前,DeepSeek 没有必要急着补多模态。多模态能力重要,但如果因为急着上线导致推理能力被稀释、长上下文成本失控,那就是捡了芝麻丢了西瓜。

现在识图模式上线,意味着 DeepSeek 在推理、长上下文、多模态三条线上都有了足够的技术储备。这个时间点补齐多模态,更像是拿到了下一阶段竞争的入场券,而不是单纯补短板。

原因很简单:Agent 场景离不开视觉理解。

Agent 时代,视觉理解是基础设施

V4 发布稿里,DeepSeek 明确提到针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品做了适配优化,Agent 能力是 V4 三个核心卖点之一。

但纯文本 Agent 的能力上限是有限的。当 Agent 需要操作浏览器、读截图、看仪表盘、识别 UI 元素、处理图表和 PDF 的时候,没有视觉理解就没办法完成闭环。

智谱的 AutoClaw、阿里云的 Coding Plan、Anthropic 的 Computer Use,在底层逻辑上共享一个判断:Agent 要真正进入生产力场景,视觉能力是基础设施而不是锦上添花。

举几个具体场景:

自动化测试:Agent 需要读取 UI 截图,判断按钮位置、文字内容、布局是否正确
数据分析:Agent 需要理解图表类型、坐标轴含义、数据趋势,而不是只能处理原始数据
文档处理:Agent 需要解析 PDF、扫描件、手写笔记,提取结构化信息
RPA 场景:Agent 需要识别桌面应用的 UI 元素,模拟人类操作流程

在这些场景里,视觉理解不是可选项,而是必选项。DeepSeek 如果想在 Agent 市场占据一席之地,识图能力必须有。

从这个角度看,识图模式上线的意义不只是补齐能力短板,更是为 Agent 场景铺路。DeepSeek 在推理能力和长上下文两个维度已经建立了优势,现在加上视觉理解,三个能力组合起来就是一个完整的 Agent 解决方案。

下一步:视频理解和多模态生成?

目前识图模式只支持图片理解,尚未开放视频理解和图像生成能力。但从 DeepSeek 过去的技术积累看,这两个方向都在储备中。

Janus-Pro 在图像生成任务上已经超过 DALL-E 3,技术方案已经验证。视频理解在 DeepSeek-VL 系列里也有涉及,只是还没有在主产品里上线。

参考其他厂商的节奏,视频理解和多模态生成很可能是 DeepSeek 下半年的重点方向。尤其是视频理解,在短视频、直播、监控分析等场景的需求量很大,市场空间比单纯的图片理解大得多。

另一个值得关注的方向是 API 开放。目前 DeepSeek API 文档还没有出现 Vision、Image Input 或识图相关接口,意味着识图能力还没有在 API 层面开放。对开发者来说,能否通过 API 调用识图能力直接影响集成成本和应用场景。

如果 DeepSeek 能在年内完成识图 API 开放,再加上视频理解和多模态生成能力,它在多模态领域的竞争力会上一个台阶。

写在最后

DeepSeek 识图模式上线,标志着国内头部大模型厂商全部完成多模态能力布局。从纯文本推理到图文全能,DeepSeek 用四个月时间补齐了核心能力短板。

这个"补短板"的过程不是简单的功能堆砌,而是在等一个足够成熟的技术方案。从 4 月初的产品分层,到 4 月底的灰度内测,再到 6 月中旬的全量开放,DeepSeek 的产品节奏清晰且克制。

识图模式的上线不是终点,而是起点。视觉理解 + 推理能力 + 长上下文,三个能力组合起来就是一个完整的 Agent 解决方案。DeepSeek 下一步要做的,是把这套能力在实际场景里跑通,证明它不只是技术 demo,而是真正能解决问题的生产力工具。

从技术储备看,DeepSeek 已经有了足够的底牌。从产品节奏看,它也在按部就班地推进。现在的问题不是能不能做,而是做得有多快、做得有多好。

参考来源

DeepSeek 识图模式正式上线 App 和网页端 - IT之家 — IT之家关于识图模式上线的首发报道
其他来源因域名限制未列出,但内容已综合参考

DeepSeek 识图模式上线:补齐多模态最后一块拼图

DeepSeek 识图模式上线:补齐多模态最后一块拼图

不只是 OCR,是真正的视觉理解

四个月铺垫,产品节奏清晰

技术底牌:从 DeepSeek-VL 到 Janus-Pro

补齐短板,还是拿到入场券?

Agent 时代,视觉理解是基础设施

下一步:视频理解和多模态生成?

写在最后

参考来源

相关推荐

英伟达把 AI 队友塞进虚幻5，8G 显存就能跑

英伟达让机器人通宵自学装显卡，ENPIRE 即将开源

阿里开源LOGOS：1B参数干翻微软56倍大的NatureLM

联系我们