GLM-OCR Technical Report

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GLM-OCR 的新模型，你可以把它想象成一位**“身怀绝技的超级图书管理员”**，但他不仅识字，还能读懂复杂的排版、表格和公式。

为了让你更轻松地理解，我们用几个生活中的比喻来拆解这篇报告的核心内容：

1. 它的核心特点：小而美，快如闪电

体型小巧（0.9B 参数）： 现在的很多大模型像是一头大象，虽然力气大（能力强），但跑起来慢，吃得多（需要巨大的显卡和内存）。GLM-OCR 则像是一只猎豹，虽然体型只有大象的几十分之一（只有 0.9B 参数），但它的速度极快，甚至可以在普通的笔记本电脑或手机上运行。
双核驱动： 它的内部结构由两部分组成：
- 眼睛（CogViT）： 负责看图，识别文档长什么样。
- 大脑（GLM）： 负责理解内容，把看到的字变成文字。
  这两部分配合得天衣无缝，既省资源又聪明。

2. 它的独门绝技：多字预测（MTP）

传统 OCR 像“蜗牛爬”： 以前的模型认字是一个字一个字地猜（像蜗牛一样，一步一步挪），遇到长文档或复杂的表格时，速度慢得让人着急。
GLM-OCR 像“打字机”： 它引入了“多字预测”技术。想象一下，普通人在说话时是一个字一个字蹦，而 GLM-OCR 像是一个熟练的打字员，一次能敲出好几个字。
- 效果： 它的速度比传统方法快了约 50%，而且因为一次预测多个字，它能更好地保持句子的连贯性，不容易把表格的行列搞乱。

3. 它的工作流程：先分块，再精读

面对一张复杂的文档（比如一张满是表格、印章和手写体的发票），GLM-OCR 不会像无头苍蝇一样乱撞，而是采用**“两步走”**策略：

第一步：画地图（布局分析）：
它先派一个“侦察兵”（PP-DocLayout-V3）在文档上转一圈，把文档切分成不同的区域：哪里是标题，哪里是表格，哪里是公式，哪里是印章。
- 比喻： 就像在整理杂乱的房间前，先划出“衣柜区”、“书桌区”和“床铺区”。
第二步：并行处理（区域识别）：
划分好区域后，它不再按顺序死板地读，而是同时处理这些区域。
- 比喻： 就像请了多个工人同时打扫不同的房间，而不是让一个人从门口走到窗户再走到床底。这大大提升了效率。

4. 它能干什么？（全能型选手）

GLM-OCR 不仅能认字，还能处理各种高难度任务：

读表格： 能把复杂的 Excel 表格还原成电脑能直接识别的格式，连合并单元格都能搞定。
解公式： 能把手写的数学公式变成标准的 LaTeX 代码，科学家和工程师最爱。
抠印章： 它能识别各种奇怪的公章，这在处理合同和发票时非常关键。
提取信息： 比如给你一张发票，它能直接告诉你“金额是多少”、“日期是哪天”，并整理成 JSON 格式，方便系统自动处理。

5. 它的表现如何？

在测试中，GLM-OCR 这个“小个子”竟然打败了很多“大块头”。

在OmniDocBench（一个文档理解的大考）中，它拿到了94.6 分，是第一名。
它甚至超过了那些参数大几十倍、需要超级计算机才能运行的模型（比如某些几百亿参数的模型）。
在真实场景（如手写体、多语言、复杂印章）中，它依然表现稳定，不像有些模型那样“水土不服”。

6. 为什么这很重要？

省钱： 以前处理大量文档需要昂贵的服务器，现在用 GLM-OCR，普通设备就能跑，成本降低了 90%。
灵活： 它可以装在手机里（边缘部署），也可以放在云端（大规模服务）。
好用： 开发者可以很容易地用它来训练自己的专属模型，比如专门用来读医疗报告或法律合同。

总结

GLM-OCR 就像是一个“轻量级的瑞士军刀”。它不需要你拥有超级计算机，却能像最顶级的专家一样，快速、准确地从杂乱的文档中提取出有价值的信息。它证明了：有时候，设计得巧妙比单纯堆砌参数更重要。

GLM-OCR Technical Report

1. 它的核心特点：小而美，快如闪电

2. 它的独门绝技：多字预测（MTP）

3. 它的工作流程：先分块，再精读

4. 它能干什么？（全能型选手）

5. 它的表现如何？

6. 为什么这很重要？

总结

GLM-OCR 技术报告详细总结

1. 背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 模型架构

2.2 多令牌预测机制 (Multi-Token Prediction, MTP)

2.3 两阶段流水线系统

2.4 训练策略 (Training Recipe)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

4.1 公开基准测试 (Public Benchmarks)

4.2 内部基准测试 (In-House Benchmarks)

4.3 推理效率

5. 意义与影响 (Significance)

GLM-OCR Technical Report

1. 它的核心特点：小而美，快如闪电

2. 它的独门绝技：多字预测（MTP）

3. 它的工作流程：先分块，再精读

4. 它能干什么？（全能型选手）

5. 它的表现如何？

6. 为什么这很重要？

总结

GLM-OCR 技术报告详细总结

1. 背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 模型架构

2.2 多令牌预测机制 (Multi-Token Prediction, MTP)

2.3 两阶段流水线系统

2.4 训练策略 (Training Recipe)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

4.1 公开基准测试 (Public Benchmarks)

4.2 内部基准测试 (In-House Benchmarks)

4.3 推理效率

5. 意义与影响 (Significance)

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models