百度开源 Unlimited OCR：500M 激活刷新端到端 OCR SOTA

百度上周开源端到端 OCR 模型 Unlimited OCR，总参数 3B、激活仅 500M，在 OmniDocBench v1.6 上拿到 93.92% 刷新 SOTA。GitHub Star 5 天破万，登顶 Trending 榜，核心创新 R-SWA 机制让模型一次推理读完 40 页文档不失忆。

上周一（6 月 22 日），百度悄悄把一个叫 Unlimited OCR 的端到端文档解析模型扔上了 GitHub。3B 总参数、推理时激活只有 500M——放在今天动辄千亿的视觉语言模型里，这数字看着像个笔误。

然后这个"笔误"在 OmniDocBench v1.5 上拿了 93.23% 综合分，v1.6 拿到 93.92%，端到端 SOTA。同台对手是 235B 的 Qwen3-VL（89.15%）、72B 的 Qwen2.5-VL（87.02%）、Gemini-2.5 Pro（88.03%）、DeepSeek OCR（87.01%）。激活参数不到这些模型零头的选手，把它们全甩在身后。

发布次日就登顶 GitHub Daily Trending 总榜和 Python 榜，HuggingFace 全球模型趋势榜和多模态趋势榜双榜第一，Star 数 5 天破万——能在这种节奏下冲过万星线的开源项目，过去一年掰着手指都能数过来。

Unlimited OCR 在 OmniDocBench v1.5/v1.6 基准上的性能对比柱状图

长文档解析的老大难，被一个滑动窗口治好了

要看懂这事的分量，得先明白 OCR 模型在长文档上一直在干什么蠢事。

书籍、论文、财报、合同——但凡涉及几十页以上的文档，主流做法都是"For-loop"：外部调度器把 PDF 切成单页，模型识别完一页就清空记忆，再处理下一页，最后靠程序把结果机械拼起来。语义连贯性被切碎了不说，跨页表格、跨页公式、跨页引用全要靠后处理硬缝。

这不是模型团队不想一次读完，是读不动。标准注意力机制下，每生成一个 token，KV Cache 就增长一截——输出越长，显存吃得越凶，单步耗时越久，像滚雪球。32K 上下文的模型，跑到几千 token 输出时速度已经在掉，跑到上万 token 基本可以躺平了。

百度的解法叫 Reference Sliding Window Attention（R-SWA），灵感来自人类抄书。你抄一本几百页的书，不会真去回忆前面抄过的全部内容，眼睛盯着原书页，脑子里只保留刚写下的一小段当工作记忆——"该忘就忘"，认知负荷压到极低，才能扛住超长任务。

R-SWA 把这套模式塞进了注意力层：

参考 token 全部可见：每生成一个新 token，注意力依然完整访问图像视觉 token 和 prompt，原文从头到尾在视野里，不会丢
生成 token 滑动窗口：解码侧只保留最近 128 个生成 token 作为工作记忆，老的挤出去
KV Cache 锁死为常数：无论输出 1 万还是 10 万 token，缓存占用完全一样

所有注意力层都换成了 R-SWA。配上 DeepSeek OCR 那个口碑爆棚的 DeepEncoder——能把 1024×1024 的页面压成 256 个视觉 token，16 倍压缩率——效果立竿见影。

性能数字给得很狠

速度方面，Flash Attention v3 内核延迟测试里，DeepSeek OCR 用标准 MHA 时单步耗时稳步爬升，曲线一路向上；Unlimited OCR 的 R-SWA 从头到尾一条平线，纹丝不动。输出长度 6144 token 时，Unlimited OCR 跑到 7847 TPS，DeepSeek OCR 已经掉到 5822 TPS，差距 35%。OmniDocBench 真实文档测试整体吞吐 5580 vs 4951，提升 12.7%。

长文档场景才是真正的杀手锏。一次输入 20 页文档，转录与原文逐字比对的编辑距离只有 0.057；超过 40 页，编辑距离依然控制在 0.11 以下；衡量重复输出的 Distinct-35 指标高达 97%——几十页一口气转录，几乎不会陷入"复读机"状态。这在以前所有 OCR 模型里都没人做成过。

精度对比也很直接。相比基线 DeepSeek OCR：

文本编辑距离：0.073 → 0.038
公式 CDM：83.37 → 92.61
表格 TEDS：84.97 → 90.93

九大文档类型（PPT、报纸、杂志、论文、书籍等）细分对比，文本识别和阅读顺序两项核心指标全面超越 DeepSeek OCR，七个类别领先 DeepSeek OCR 2。这说明 R-SWA 不挑场景，从彩色教材到密集表格都能扛。

启动一行命令

模型权重和代码已经在 GitHub 和 HuggingFace（以及 ModelScope）放出，推荐用 sglang 起服务：

pip install torch==2.10.0 torchvision==0.25.0
pip install transformers==4.57.1
pip install Pillow==12.1.1 matplotlib==3.10.8 einops==0.8.2
pip install addict==2.4.0 easydict==1.13 pymupdf==1.27.2.2 psutil==7.2.2

python -m sglang.launch_server \
  --model PaddlePaddle/Unlimited-OCR \
  --served-model-name Unlimited-OCR \
  --attention-backend fa3 \
  --page-size 1 \
  --mem-fraction-static 0.8 \
  --context-length 32768 \
  --enable-custom-logit-processor \
  --disable-overlap-schedule \
  --skip-server-warmup \
  --host 0.0.0.0 --port 10000

注意 --attention-backend fa3 是用上 Flash Attention v3，R-SWA 的速度优势在这个后端下才完全释放。500M 激活的体量意味着单张消费级显卡就能跑，部署成本几乎没有门槛。

神秘的技术总监 YY

这事还有个让圈内人坐不住的细节。

技术报告 40 多次提到 DeepSeek OCR，措辞一点没有竞品对标那种锋芒，反而像是对自家先前工作的反思和延续。HuggingFace 项目主页致谢栏第一二位直接列了 DeepSeek-OCR 和 DeepSeek-OCR-2。核心贡献者三位：Youyang Yin、Huanhuan Liu（项目 leader）、署名只有缩写"YY"的技术总监。

DeepSeek OCR 一代到二代核心作者一直是魏浩然、孙耀峰、李宇琨三人。魏浩然出身阶跃星辰，主导过端到端 OCR 开源标杆 GOT-OCR2.0，到 DeepSeek 后一手搭起整条 OCR 线，DeepEncoder 和 MoE 解码器都出自他的团队。今年 4 月 DeepSeek V4 发布时，他的名字已经标注为离职状态，去向一直没公开。

国内 OCR 圈子小，能对 DeepSeek OCR 架构熟悉到"亲手做过"级别、又能做出 R-SWA 这种突破的人，一只手数得过来。"YY"是不是魏浩然，百度没正面回应，但报告里那种几乎无缝的技术衔接已经在替这事背书。

百度的产研合流

这事更大的背景，是百度 OCR 路线的一次重要转向。

过去几年 PaddleOCR 几乎是国产 OCR 的代名词：开源、轻量、产业落地最广，手机端到嵌入式设备全覆盖。但叙事重点一直是工程稳定性和部署成本，"用前沿研究理念重塑 OCR 范式"不是百度的故事。

Unlimited OCR 补上了这块。从 GOT-OCR2.0 的端到端范式，到 DeepSeek-OCR 的视觉压缩，再到 R-SWA 的长程解析——这条线现在和 PaddleOCR 的工程底座对上了。一边是产业落地最成熟的工程矩阵，一边是端到端长程解析最前沿的研究品味。

百度今年把 AIDU 人才计划升级为集团级项目、薪酬不设上限。对一个想把研究做到闭环的人来说，百度多年铺下来的落地场景，比单纯的高薪更有说服力——这可能不是巧合。

论文展望里还留了一句：下一步上下文窗口训到 128K，构建 prefill pool 让模型学会自动翻页。如果跑通，OCR 就不只是"识别一页文字的工具"，而是"能读完一整本书的通用长程解析框架"。百度自己在报告里也明说了，R-SWA 是通用解析机制，OCR 只是第一站，后面会推广到语音识别和机器翻译这些长程序列任务。

一个更有意思的方向

回头看 R-SWA 这个机制，意义不止 OCR。

过去一年大模型行业卷长上下文的主线是扩窗口——8K、32K、128K、1M、10M，硬把窗口拉大。但代价是显存、推理速度、训练成本全线上涨，长上下文真用起来还是"中间塞进去的内容容易丢"。

R-SWA 走的是另一条路：让模型学会"保留关键参考、适度遗忘历史"，用更经济的注意力分配方式完成超长任务。在 OCR 这种"参考信息（原文图像）和生成内容明确分离"的场景里它效果拔群，但翻译、转录、长文档摘要这些任务结构相近——百度押的方向，可能比一个 OCR 模型本身更值得盯。

目前 Unlimited OCR 已经开源，权重免费可商用。如果业务里有长文档解析需求，这是过去一年最值得直接换掉旧方案的一次更新。OpenAI Hub 也已经接入这个模型，习惯用 OpenAI 兼容接口调多模型的开发者可以直接通过 Hub 调用，不用单独部署。

参考来源

baidu/Unlimited-OCR · GitHub — 项目主页、源代码及部署文档
baidu/Unlimited-OCR · HuggingFace — 模型权重、技术报告及致谢列表
百度开源 Unlimited OCR：让长文档解析一次完成 · 知乎 — R-SWA 机制详解与性能对比分析

百度开源 Unlimited OCR：500M 激活干翻千亿大模型

长文档解析的老大难，被一个滑动窗口治好了

性能数字给得很狠

启动一行命令

神秘的技术总监 YY

百度的产研合流

一个更有意思的方向

参考来源

相关推荐

芬兰押注AI重构公共部门：2031年裁员与提效并行

高德憋出个"袋马"：地图公司也来卷Vibe Coding了

中国移动设Token办公室，运营商要做AI时代的水电煤

联系我们