DODO: Discrete OCR Diffusion Models

本文提出了 DODO,这是首个利用分块离散扩散模型解决传统自回归解码效率瓶颈的视觉语言模型,在保持接近最先进 OCR 准确率的同时实现了高达 3 倍的推理加速。

Sean Man, Roy Ganz, Roi Ronen, Shahar Tsiper, Shai Mazor, Niv Nayman

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DODO 的新模型,它的核心任务是OCR(光学字符识别),也就是把图片里的文字(比如扫描的文档、照片里的字)转换成电脑能编辑的文本。

为了让你轻松理解,我们可以把 OCR 想象成**“在嘈杂的派对上听写”,而 DODO 就是那个“超级听写员”**。

1. 以前的困境:慢吞吞的“单字接龙”

目前的顶级 OCR 模型(比如基于大语言模型的)大多采用**“自回归”**(Autoregressive)的方式工作。

  • 比喻:想象你在玩“传声筒”游戏,或者像写对联。你必须先写出第一个字,确认了,才能写第二个字;确认了第二个,才能写第三个。
  • 问题:如果文档有 1000 个字,你就得做 1000 次“思考 - 确认 - 写下一个”的动作。这就像单行道,车只能一辆接一辆过,一旦路很长(长文档),堵车(延迟)就严重了,速度非常慢。

2. 新的尝试:大胆的“填字游戏”,但容易出错

研究人员发现,OCR 其实有一个特点:图片里的字是确定的。图片里是"Apple",就不可能是"Banana"。这不像写诗(可以有很多写法),OCR 只有一种标准答案。
既然答案唯一,理论上我们可以并行处理:不用等前一个字,直接猜整段话。

  • 比喻:这就像玩填字游戏。以前的模型是一个格子一个格子填;现在的“扩散模型”(Diffusion Models)试图一次性把整张纸上的格子都填上,然后慢慢擦掉错误的,修正正确的。
  • 问题:这种“一次性全填”的方法在写诗(创意任务)时很灵活,但在 OCR 这种**“零容忍”**的任务里会翻车。
    • 长度错误:模型可能猜错了总字数,导致后面多出一堆乱码,或者前面少了一截。
    • 位置错乱:模型可能把“标题”填到了“正文”的位置,而且一旦填错了,它很难回头修改(因为它是基于概率猜测的,不像人类可以逻辑推理)。
    • 结果:就像填字游戏里,你把“苹果”填在了“香蕉”的位置,整个句子就崩了。

3. DODO 的绝招:切块填字 + 流水线作业

DODO 发现,要解决“一次性全填”容易乱套的问题,最好的办法是**“分块处理”**。

  • 核心创新:分块离散扩散(Block Discrete Diffusion)
    • 比喻:想象你要整理一长串乐高积木
      • 旧方法(自回归):一块一块地拼,拼完第一块再拼第二块。
      • 旧扩散模型(全局扩散):把整条积木带扔进机器,试图一次性把它们都拼好,结果经常拼歪、拼错顺序。
      • DODO 的方法(分块扩散):把长积木带切成小段(比如每段 256 个积木)
        1. 先拼好第一段,把它锁定(作为确定的基础)。
        2. 然后,基于第一段,并行地快速拼好第二段(这一段里可以同时处理很多个积木)。
        3. 拼好第二段,锁定,再拼第三段……
    • 好处
      • :因为每一段内部是“并行”的(像多人同时填一个填字游戏),速度比“单字接龙”快得多(论文说快了 3 倍)。
      • :因为每一段都基于前一段“锁定”好的内容,不会出现“标题跑到正文去”或者“字数猜错”的灾难性错误。它既保留了扩散模型的速度,又有了传统模型的准确性

4. 为什么叫 DODO?

DODO 是 Discrete OCR Diffusion Models 的缩写。虽然渡渡鸟(Dodo)已经灭绝了,但在这个领域,它象征着一种**“进化”**:从慢吞吞的旧方法,进化到了既快又准的新方法。

5. 总结:DODO 带来了什么?

  • 速度提升:处理长文档时,速度提升了3 倍。以前需要 10 秒读完的文档,现在可能只要 3 秒。
  • 准确率不打折:虽然快了,但它的准确率依然和目前最顶尖的慢速模型一样高,甚至更好。
  • 适用场景:特别适合处理长文档、复杂的表格、多栏排版的扫描件。

一句话总结
DODO 就像是一个聪明的流水线工头,它不再让工人一个个地搬砖(慢),也不再让所有人同时乱搬(容易乱),而是把砖块分成小堆,让工人们在每一堆里同时开工,搬完一堆再搬下一堆。这样既保证了秩序,又极大地提高了效率

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →