DeepSeek-OCR 发布：1个视觉token，抵得上10个文本token

55 0 0

OCR技术的演进，正在从“识别能力”走向“压缩效率”。本文深度解析DeepSeek-OCR如何通过上下文光学压缩实现SOTA级性能，以更少的视觉Token完成更精准的识别任务，重塑AI文档解析的工程范式，为产品人和技术团队提供一套可部署、可扩展的智能入口。

之前和 OpenAI 的做交流，突然提了一个问题文字，是信息压缩的最好方式吗？

当时没想太多，直到今天DeepSeek 开源了 DeepSeek-OCR用 10 个视觉 token，表达 100 个文本 token

github.com/deepseek-ai/DeepSeek-OCR

我突然意识到：这个问题可能有答案了具体对比：

DeepSeek-OCR用100个token，超过了GOT-OCR2.0的256个token
DeepSeek-OCR用800个token，超过了MinerU2.0的6000+token
即使压缩到20倍，准确率还有60%

DeepSeek-OCR在不同压缩比下的准确率

为什么重要

现在所有的多模态大模型都面临一个瓶颈：token 消耗太多了

处理一页 PDF 就要消耗几千个 token如果你想处理一本书、一份研究报告、一堆财务文档context window 立刻就爆了每个 token 都要算钱、消耗显存、拖慢推理速度

DeepSeek-OCR 用数据告诉你10 倍压缩，几乎无损

信息论视角

对于这个问题Hacker News 上展开了很大的讨论

是当前 Hacker News 上的最火话题

“为什么这种方法有效？”

“是不是文本 token 太粒状了，没接近理想的熵编码？”

“切换到视觉 token 是不是逃脱了’一次一个词’的限制？”

Hacker News 评论第一条

有个回答说的很有意思文本 token 本质上是离散的查找表你有个小整数（token ID）然后查表得到一个向量

但视觉 token 是连续值向量没有查找表直接从图像编码成向量

这意味着什么？文本 token 的「token 空间」是有限的通常就 10 万个可能的 token每个 token 对应一小段 UTF-8 字节而且大多数分词器不会创建跨越词边界的 token

视觉 token 的「token 空间」要大得多它是高维浮点数向量，每个维度都可以取很多值所以视觉 token 能传达更多的 bits per token这才是压缩的关键

另一个人补充文本 token 是子词单元视觉 token 在语义空间语义空间显然比子词切片压缩得多

免责声明：我不懂

还有人从视觉角度解释人类就是通过视觉看文本的所以文本必须有适应视觉噪声的机制看起来相似的词不能出现在相似的上下文否则会混淆

挺有意思的文本为了适应视觉识别反而在编码上有些”冗余”而视觉 token 直接在语义空间工作可以更高效所以 10 倍的压缩比

从信息论角度看其实挺合理的DeepSeek-OCR 做的事情是把这个直觉量化了用实验数据证明：一图确实胜千言

当然，我并不是这个领域的，评价不到正确与否，有懂的兄弟，还请评论区指导

怎么做到的

DeepSeek 这个东西的核心是一个叫 DeepEncoder 的架构380M 参数

这东西的设计很讲究它由三部分组成80M 的 SAM-base + 16 倍的卷积压缩器 + 300M 的 CLIP-large

DeepEncoder架构流程图

这个设计有两个关键

第一个关键是「低激活」大部分 VLM 的视觉编码器激活值特别大InternVL2-76B 的激活参数是 76BQwen2.5-VL-72B 的激活参数是 72BDeepSeek-OCR 的解码器虽然是 3B 参数但激活参数只有 570M因为它用了 MoE 架构每次只激活一部分专家这意味着推理时显存占用小、速度快

第二个关键是「多分辨率统一」它设计了 6 种模式从 Tiny 模式的 64 个 token到 Gundam 模式的 800+ 个 token你可以根据文档复杂度选择幻灯片用 Tiny 就够了报纸得用 Gundam

另外值得一提的是DeepSeek-OCR 不只能识别文字还能「深度解析」文档里的图表、几何图形、化学式论文里叫这个能力 OCR 2.0比如金融报告里的图表它能直接转成结构化数据化学文档里的结构式它能转成 SMILES 格式

化学结构，也不在话下

这对金融、科研、教育领域太关键了