DeepSeek 多模态研究员 Xiaokang Chen 宣布识图模式正式登陆网页和 App 端，与快速模式、专家模式并列。背后是其 4 月公开的'以视觉原语思考'技术框架。

DeepSeek 识图模式终于转正：从内测走向全量

6 月 18 日，DeepSeek 多模态研究员 Xiaokang Chen 在社交平台上扔出一句话：识图模式正式上线网页端和 App 端。没有发布会，没有预告片，甚至连一篇像样的官方博客都没有——这很 DeepSeek。

这事看着小，但拖了不短时间。从去年下半年陆陆续续有用户在 App 里看到'图片理解功能内测中'的灰度入口，到现在算是磨了大半年才正式推开。IT之家实测发现，App 端目前依然挂着'图片理解功能内测中'的提示，网页端则已经把这块尾巴去掉了——意思是网页端先转正，移动端的灰度还没完全收口。

DeepSeek 网页端识图模式入口截图

三种模式并列的产品逻辑

现在 DeepSeek 的对话框里，'识图模式'和此前已有的'快速模式''专家模式'并列摆着。这套三选一的设计其实挺有意思，跟主流厂商把多模态揉进单一对话框的做法不一样。

快速模式：默认的轻量对话，主打响应速度
专家模式：调用深度推理能力，对应的是 R1 那条线
识图模式：单独入口，开启后才能上传图片走多模态链路

为什么要单拆一个模式出来？OpenAI 的 GPT-4o、Anthropic 的 Claude、Google 的 Gemini 早就把视觉能力做成默认开启了，用户拖个图就能问。DeepSeek 这套显式切换的设计，多少有点反潮流。

我的猜测是两个原因。一是算力成本——视觉编码器跑起来贵，让用户主动开启可以筛掉一大批根本不需要图像理解的请求；二是模型路由，识图模式背后跑的可能根本不是同一个模型权重，而是专门的多模态版本，所以入口必须显式区分。这种做法工程上更干净，但用户教育成本会高一些。

不只是 OCR：'以视觉原语思考'是什么

配合这次上线，值得回头看一眼 DeepSeek 在今年 4 月公开的技术细节。他们提出了一个叫做 Thinking with Visual Primitives（以视觉原语思考） 的核心框架。

这个名字听起来玄乎，拆开来其实是在解决一件具体的事：现有的视觉语言模型大多是'看完图、转成文字描述、然后基于文字推理'。这个流程的问题是，图像里的空间关系、几何结构、像素级细节在转译过程中会丢掉一大半。模型看着图，但'思考'用的是被压缩过的文字摘要。

视觉原语的思路是让推理过程直接在视觉表征上进行——把图像拆解成更基础的视觉单元（点、线、区域、几何关系），让模型在这些原语上做组合和推理，而不是先翻译成自然语言。简单理解，就像让人类做几何题时直接在脑子里旋转图形，而不是把图形先用文字描述一遍再思考。

这个方向其实跟 OpenAI o3 在视觉推理上做的'图像缩放、旋转、裁剪后再思考'有点异曲同工，但 DeepSeek 走得更底层一些，是从表征层面动刀。

视觉原语思考框架示意图

实测一下：能做什么不能做什么

我拿几个常见场景跑了一下网页端：

手写笔记识别：一页字迹潦草的会议笔记，OCR 出来的准确率比预期高，连箭头表示的逻辑关系都识别出来了，而不是简单地把字符堆在一起。

图表理解：丢了一张折线图问数据走势，能正确读出转折点和大致数值，但具体到坐标轴刻度的精确读数会有偏差。这是当前所有视觉模型的通病。

截图调试：把一段报错的 IDE 截图丢进去，连同代码上下文一起分析，能定位到具体行和大致原因。对开发者来说这个场景实用。

复杂场景推理：上传一张物理题的电路图，让它分析电流走向。这块表现明显比纯 OCR 强一档，能结合图中元件关系给出推理路径——这大概就是'视觉原语'框架的价值。

短板也有。一是延迟，识图模式开启后首字延迟明显高于纯文本对话；二是图像生成完全不支持，DeepSeek 这次只做了理解侧，没碰生成；三是多图对比推理还比较弱，丢两张图让它找不同，效果一般。

在国内多模态战场的位置

横向比一下国内同行的进度：

通义千问 Qwen-VL 系列已经迭代到第三代，开源权重也放出来了，是目前国内多模态的标杆
智谱 GLM-4V 在 OCR 和图表理解上深耕，企业侧用得多
Kimi 的视觉能力主打长文档+图像混合理解
豆包走的是 C 端全场景

DeepSeek 这次上线的识图模式，从能力上看并没有刷新行业上限。它的优势仍然是那套熟悉的组合拳——免费、开源（如果后续放权重的话）、技术框架够新。'以视觉原语思考'这个方向如果真能跑通，对开源多模态社区的影响会比这次产品上线本身大得多。

值得注意的是，DeepSeek 这次只更新了产品，对应的多模态模型权重还没开源。考虑到他们一贯的开源节奏，权重大概率会在后面某个时间点放出来——这才是开发者真正等的东西。

对开发者意味着什么

短期来看，C 端用户多了一个免费可用的视觉理解工具，能截图问问题、能拍照解题、能让 AI 看 UI 设计稿——常规多模态能用的场景它都能接。

但对开发者来说，更值得关注的是 API 层面什么时候跟进。目前 DeepSeek 开放平台的 API 还是纯文本，识图能力没有开放调用入口。如果后续按惯例放出 vision API，配合他们一贯激进的定价，对现在用 GPT-4o vision 或 Claude vision 的应用会形成实打实的成本压力。

OpenAI Hub 这边也在持续跟进 DeepSeek 系列的更新，等视觉 API 正式开放后会第一时间接入，届时一个 Key 就能在 GPT、Claude、Gemini、DeepSeek 之间切换多模态调用，省去到处申请 Key 的折腾。

一点延伸思考

DeepSeek 这次的节奏很'DeepSeek'：研究员一句话、产品悄悄上线、技术细节早几个月就低调公布过。没有营销、没有 PPT、没有融资稿。这种工程师文化在当下的 AI 圈算是清流。

但反过来说，多模态这个赛道现在卷得已经不只是模型能力。GPT-4o 的实时语音视频、Gemini 2.0 的原生多模态生成、Claude 的 Computer Use——头部玩家在视觉这条线上已经开始做交互范式的创新。DeepSeek 还在补'能看图'这个基础能力，节奏上其实是慢的。

好消息是，他们补课的方式不是简单照抄，'视觉原语'这套技术叙事如果真能在 R2 或者下一代模型上跑出效果，可能会跳过中间几代的演进路径。开源社区现在最缺的就是这种敢于在底层框架上动刀的玩家。

所以这次的识图模式上线，与其说是一个产品里程碑，不如说是 DeepSeek 多模态故事的一个起点。真正的好戏，还在后面。

参考来源

IT之家 - DeepSeek 识图模式正式上线 App 和网页端 - 首发报道，包含 Xiaokang Chen 的原始表态和实测细节

DeepSeek识图模式终于转正：从内测走向全量

DeepSeek 识图模式终于转正：从内测走向全量

三种模式并列的产品逻辑

不只是 OCR：'以视觉原语思考'是什么

实测一下：能做什么不能做什么

在国内多模态战场的位置

对开发者意味着什么

一点延伸思考

参考来源

相关推荐

Codex Python SDK 发布：AI 编码终于能直接写进代码里了

Codex 终于能调 Claude 了：开源工具打通多模型路由

Grok 1.5视频生成：0.15元/条背后的成本战

联系我们