GLM-OCR Technical Report

GLM-OCR 是一款参数量仅为 0.9B 的高效紧凑型多模态模型,通过结合 CogViT 视觉编码器与 GLM 语言解码器,并引入多 token 预测机制及两阶段处理流程,在显著降低计算资源消耗的同时,实现了在文档解析、公式转录、表格结构恢复及关键信息提取等任务中的卓越性能,适用于边缘设备部署与大规模生产系统。

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GLM-OCR 的新模型,你可以把它想象成一位**“身怀绝技的超级图书管理员”**,但他不仅识字,还能读懂复杂的排版、表格和公式。

为了让你更轻松地理解,我们用几个生活中的比喻来拆解这篇报告的核心内容:

1. 它的核心特点:小而美,快如闪电

  • 体型小巧(0.9B 参数): 现在的很多大模型像是一头大象,虽然力气大(能力强),但跑起来慢,吃得多(需要巨大的显卡和内存)。GLM-OCR 则像是一只猎豹,虽然体型只有大象的几十分之一(只有 0.9B 参数),但它的速度极快,甚至可以在普通的笔记本电脑或手机上运行。
  • 双核驱动: 它的内部结构由两部分组成:
    • 眼睛(CogViT): 负责看图,识别文档长什么样。
    • 大脑(GLM): 负责理解内容,把看到的字变成文字。
      这两部分配合得天衣无缝,既省资源又聪明。

2. 它的独门绝技:多字预测(MTP)

  • 传统 OCR 像“蜗牛爬”: 以前的模型认字是一个字一个字地猜(像蜗牛一样,一步一步挪),遇到长文档或复杂的表格时,速度慢得让人着急。
  • GLM-OCR 像“打字机”: 它引入了“多字预测”技术。想象一下,普通人在说话时是一个字一个字蹦,而 GLM-OCR 像是一个熟练的打字员,一次能敲出好几个字
    • 效果: 它的速度比传统方法快了约 50%,而且因为一次预测多个字,它能更好地保持句子的连贯性,不容易把表格的行列搞乱。

3. 它的工作流程:先分块,再精读

面对一张复杂的文档(比如一张满是表格、印章和手写体的发票),GLM-OCR 不会像无头苍蝇一样乱撞,而是采用**“两步走”**策略:

  • 第一步:画地图(布局分析):
    它先派一个“侦察兵”(PP-DocLayout-V3)在文档上转一圈,把文档切分成不同的区域:哪里是标题,哪里是表格,哪里是公式,哪里是印章。
    • 比喻: 就像在整理杂乱的房间前,先划出“衣柜区”、“书桌区”和“床铺区”。
  • 第二步:并行处理(区域识别):
    划分好区域后,它不再按顺序死板地读,而是同时处理这些区域。
    • 比喻: 就像请了多个工人同时打扫不同的房间,而不是让一个人从门口走到窗户再走到床底。这大大提升了效率。

4. 它能干什么?(全能型选手)

GLM-OCR 不仅能认字,还能处理各种高难度任务:

  • 读表格: 能把复杂的 Excel 表格还原成电脑能直接识别的格式,连合并单元格都能搞定。
  • 解公式: 能把手写的数学公式变成标准的 LaTeX 代码,科学家和工程师最爱。
  • 抠印章: 它能识别各种奇怪的公章,这在处理合同和发票时非常关键。
  • 提取信息: 比如给你一张发票,它能直接告诉你“金额是多少”、“日期是哪天”,并整理成 JSON 格式,方便系统自动处理。

5. 它的表现如何?

在测试中,GLM-OCR 这个“小个子”竟然打败了很多“大块头”。

  • OmniDocBench(一个文档理解的大考)中,它拿到了94.6 分,是第一名。
  • 它甚至超过了那些参数大几十倍、需要超级计算机才能运行的模型(比如某些几百亿参数的模型)。
  • 真实场景(如手写体、多语言、复杂印章)中,它依然表现稳定,不像有些模型那样“水土不服”。

6. 为什么这很重要?

  • 省钱: 以前处理大量文档需要昂贵的服务器,现在用 GLM-OCR,普通设备就能跑,成本降低了 90%。
  • 灵活: 它可以装在手机里(边缘部署),也可以放在云端(大规模服务)。
  • 好用: 开发者可以很容易地用它来训练自己的专属模型,比如专门用来读医疗报告或法律合同。

总结

GLM-OCR 就像是一个“轻量级的瑞士军刀”。它不需要你拥有超级计算机,却能像最顶级的专家一样,快速、准确地从杂乱的文档中提取出有价值的信息。它证明了:有时候,设计得巧妙比单纯堆砌参数更重要。