AI 快讯百度开源 Unlimited OCR:500M 激活干翻千亿大模型
模型上新

百度开源 Unlimited OCR:500M 激活干翻千亿大模型

2026-06-29T08:03:49.184Z

百度上周开源端到端 OCR 模型 Unlimited OCR,总参数 3B、激活仅 500M,在 OmniDocBench v1.6 上拿到 93.92% 刷新 SOTA。GitHub Star 5 天破万,登顶 Trending 榜,核心创新 R-SWA 机制让模型一次推理读完 40 页文档不失忆。

上周一(6 月 22 日),百度悄悄把一个叫 Unlimited OCR 的端到端文档解析模型扔上了 GitHub。3B 总参数、推理时激活只有 500M——放在今天动辄千亿的视觉语言模型里,这数字看着像个笔误。

然后这个"笔误"在 OmniDocBench v1.5 上拿了 93.23% 综合分,v1.6 拿到 93.92%,端到端 SOTA。同台对手是 235B 的 Qwen3-VL(89.15%)、72B 的 Qwen2.5-VL(87.02%)、Gemini-2.5 Pro(88.03%)、DeepSeek OCR(87.01%)。激活参数不到这些模型零头的选手,把它们全甩在身后。

发布次日就登顶 GitHub Daily Trending 总榜和 Python 榜,HuggingFace 全球模型趋势榜和多模态趋势榜双榜第一,Star 数 5 天破万——能在这种节奏下冲过万星线的开源项目,过去一年掰着手指都能数过来。

Unlimited OCR 在 OmniDocBench v1.5/v1.6 基准上的性能对比柱状图

长文档解析的老大难,被一个滑动窗口治好了

要看懂这事的分量,得先明白 OCR 模型在长文档上一直在干什么蠢事。

书籍、论文、财报、合同——但凡涉及几十页以上的文档,主流做法都是"For-loop":外部调度器把 PDF 切成单页,模型识别完一页就清空记忆,再处理下一页,最后靠程序把结果机械拼起来。语义连贯性被切碎了不说,跨页表格、跨页公式、跨页引用全要靠后处理硬缝。

这不是模型团队不想一次读完,是读不动。标准注意力机制下,每生成一个 token,KV Cache 就增长一截——输出越长,显存吃得越凶,单步耗时越久,像滚雪球。32K 上下文的模型,跑到几千 token 输出时速度已经在掉,跑到上万 token 基本可以躺平了。

百度的解法叫 Reference Sliding Window Attention(R-SWA),灵感来自人类抄书。你抄一本几百页的书,不会真去回忆前面抄过的全部内容,眼睛盯着原书页,脑子里只保留刚写下的一小段当工作记忆——"该忘就忘",认知负荷压到极低,才能扛住超长任务。

R-SWA 把这套模式塞进了注意力层:

  • 参考 token 全部可见:每生成一个新 token,注意力依然完整访问图像视觉 token 和 prompt,原文从头到尾在视野里,不会丢
  • 生成 token 滑动窗口:解码侧只保留最近 128 个生成 token 作为工作记忆,老的挤出去
  • KV Cache 锁死为常数:无论输出 1 万还是 10 万 token,缓存占用完全一样

所有注意力层都换成了 R-SWA。配上 DeepSeek OCR 那个口碑爆棚的 DeepEncoder——能把 1024×1024 的页面压成 256 个视觉 token,16 倍压缩率——效果立竿见影。

性能数字给得很狠

速度方面,Flash Attention v3 内核延迟测试里,DeepSeek OCR 用标准 MHA 时单步耗时稳步爬升,曲线一路向上;Unlimited OCR 的 R-SWA 从头到尾一条平线,纹丝不动。输出长度 6144 token 时,Unlimited OCR 跑到 7847 TPS,DeepSeek OCR 已经掉到 5822 TPS,差距 35%。OmniDocBench 真实文档测试整体吞吐 5580 vs 4951,提升 12.7%。

长文档场景才是真正的杀手锏。一次输入 20 页文档,转录与原文逐字比对的编辑距离只有 0.057;超过 40 页,编辑距离依然控制在 0.11 以下;衡量重复输出的 Distinct-35 指标高达 97%——几十页一口气转录,几乎不会陷入"复读机"状态。这在以前所有 OCR 模型里都没人做成过。

精度对比也很直接。相比基线 DeepSeek OCR:

  • 文本编辑距离:0.073 → 0.038
  • 公式 CDM:83.37 → 92.61
  • 表格 TEDS:84.97 → 90.93

九大文档类型(PPT、报纸、杂志、论文、书籍等)细分对比,文本识别和阅读顺序两项核心指标全面超越 DeepSeek OCR,七个类别领先 DeepSeek OCR 2。这说明 R-SWA 不挑场景,从彩色教材到密集表格都能扛。

启动一行命令

模型权重和代码已经在 GitHub 和 HuggingFace(以及 ModelScope)放出,推荐用 sglang 起服务:

pip install torch==2.10.0 torchvision==0.25.0
pip install transformers==4.57.1
pip install Pillow==12.1.1 matplotlib==3.10.8 einops==0.8.2
pip install addict==2.4.0 easydict==1.13 pymupdf==1.27.2.2 psutil==7.2.2
python -m sglang.launch_server \
  --model PaddlePaddle/Unlimited-OCR \
  --served-model-name Unlimited-OCR \
  --attention-backend fa3 \
  --page-size 1 \
  --mem-fraction-static 0.8 \
  --context-length 32768 \
  --enable-custom-logit-processor \
  --disable-overlap-schedule \
  --skip-server-warmup \
  --host 0.0.0.0 --port 10000

注意 --attention-backend fa3 是用上 Flash Attention v3,R-SWA 的速度优势在这个后端下才完全释放。500M 激活的体量意味着单张消费级显卡就能跑,部署成本几乎没有门槛。

神秘的技术总监 YY

这事还有个让圈内人坐不住的细节。

技术报告 40 多次提到 DeepSeek OCR,措辞一点没有竞品对标那种锋芒,反而像是对自家先前工作的反思和延续。HuggingFace 项目主页致谢栏第一二位直接列了 DeepSeek-OCR 和 DeepSeek-OCR-2。核心贡献者三位:Youyang Yin、Huanhuan Liu(项目 leader)、署名只有缩写"YY"的技术总监。

DeepSeek OCR 一代到二代核心作者一直是魏浩然、孙耀峰、李宇琨三人。魏浩然出身阶跃星辰,主导过端到端 OCR 开源标杆 GOT-OCR2.0,到 DeepSeek 后一手搭起整条 OCR 线,DeepEncoder 和 MoE 解码器都出自他的团队。今年 4 月 DeepSeek V4 发布时,他的名字已经标注为离职状态,去向一直没公开。

国内 OCR 圈子小,能对 DeepSeek OCR 架构熟悉到"亲手做过"级别、又能做出 R-SWA 这种突破的人,一只手数得过来。"YY"是不是魏浩然,百度没正面回应,但报告里那种几乎无缝的技术衔接已经在替这事背书。

百度的产研合流

这事更大的背景,是百度 OCR 路线的一次重要转向。

过去几年 PaddleOCR 几乎是国产 OCR 的代名词:开源、轻量、产业落地最广,手机端到嵌入式设备全覆盖。但叙事重点一直是工程稳定性和部署成本,"用前沿研究理念重塑 OCR 范式"不是百度的故事。

Unlimited OCR 补上了这块。从 GOT-OCR2.0 的端到端范式,到 DeepSeek-OCR 的视觉压缩,再到 R-SWA 的长程解析——这条线现在和 PaddleOCR 的工程底座对上了。一边是产业落地最成熟的工程矩阵,一边是端到端长程解析最前沿的研究品味。

百度今年把 AIDU 人才计划升级为集团级项目、薪酬不设上限。对一个想把研究做到闭环的人来说,百度多年铺下来的落地场景,比单纯的高薪更有说服力——这可能不是巧合。

论文展望里还留了一句:下一步上下文窗口训到 128K,构建 prefill pool 让模型学会自动翻页。如果跑通,OCR 就不只是"识别一页文字的工具",而是"能读完一整本书的通用长程解析框架"。百度自己在报告里也明说了,R-SWA 是通用解析机制,OCR 只是第一站,后面会推广到语音识别和机器翻译这些长程序列任务。

一个更有意思的方向

回头看 R-SWA 这个机制,意义不止 OCR。

过去一年大模型行业卷长上下文的主线是扩窗口——8K、32K、128K、1M、10M,硬把窗口拉大。但代价是显存、推理速度、训练成本全线上涨,长上下文真用起来还是"中间塞进去的内容容易丢"。

R-SWA 走的是另一条路:让模型学会"保留关键参考、适度遗忘历史",用更经济的注意力分配方式完成超长任务。在 OCR 这种"参考信息(原文图像)和生成内容明确分离"的场景里它效果拔群,但翻译、转录、长文档摘要这些任务结构相近——百度押的方向,可能比一个 OCR 模型本身更值得盯。

目前 Unlimited OCR 已经开源,权重免费可商用。如果业务里有长文档解析需求,这是过去一年最值得直接换掉旧方案的一次更新。OpenAI Hub 也已经接入这个模型,习惯用 OpenAI 兼容接口调多模型的开发者可以直接通过 Hub 调用,不用单独部署。

参考来源

相关推荐

查看全部

联系我们

我们通常在工作时间快速响应

扫码添加微信

专属客服:Hub 助手

微信号: