FireRed-OCR Technical Report

本文提出了 FireRed-OCR 框架,通过构建“几何 + 语义”数据工厂和采用包含多任务预对齐、专用微调及格式约束 GRPO 的三阶段渐进式训练策略,将通用视觉语言模型(基于 Qwen3-VL)转化为具备像素级精度的结构化文档解析专家,在 OmniDocBench v1.5 上取得了超越现有强基线的 SOTA 性能。

Hao Wu, Haoran Lou, Xinyue Li, Zuodong Zhong, Zhaojun Sun, Phellon Chen, Xuanhe Zhou, Kai Zuo, Yibo Chen, Xu Tang, Yao Hu, Boxiang Zhou, Jian Wu, Yongji Wu, Wenxin Yu, Yingmiao Liu, Yuhao Huang, Manjie Xu, Gang Liu, Yidong Ma, Zhichao Sun, Changhao Qiao

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FireRed-OCR 的新技术,它的核心目标非常明确:把那些“博而不精”的通用人工智能(VLM),训练成“精通文档结构”的 OCR(文字识别)专家。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这项技术:

1. 核心痛点:为什么现在的 AI 看文档会“发疯”?

想象一下,你请了一位才华横溢但有点粗心的作家(通用大模型,如 Qwen-VL)来帮你整理一份复杂的财务报表或学术论文。

  • 他的强项:他能读懂文章的大意,知道你在说什么,甚至能写出一段很优美的总结。
  • 他的弱点:当他面对密密麻麻的表格、复杂的数学公式或者多栏排版时,他经常**“脑补”过头**。
    • 表格的线画歪了,或者行对不齐(结构幻觉)。
    • 数学公式里的符号乱飞,根本算不出来。
    • 文章段落顺序搞反了,先讲结论再讲原因。

在工业界,这种“大概意思对,但格式全错”的文档是没法用的。我们需要的是像素级精准的还原,就像把纸质文件原封不动地变成可编辑的电子版。

2. 解决方案:FireRed-OCR 的“三阶段特训”

为了解决这个问题,作者团队设计了一套**“从粗到细”的三步走特训计划**,把这位“粗心的作家”训练成“严谨的排版专家”。

第一阶段:多任务预对齐(打地基)

  • 比喻:就像让作家先做**“找茬游戏”**。
  • 做法:不让他直接写文章,而是先让他练习“指认”——指着图片里的某个框说“这是标题”,“这是表格”,“这是公式”。
  • 目的:强迫他先学会看清文档的物理结构(哪里是哪里),而不是急着去“猜”内容。这就像先学会认字和认图,再学写文章。

第二阶段:专业监督微调(学规矩)

  • 比喻:让作家在**“严格的编辑”**指导下,把文章重新写一遍。
  • 做法:使用高质量的“标准答案”(统一格式的 Markdown 数据)来训练他。告诉他:标题必须用 #,表格必须用 |,公式必须用 LaTeX 格式。
  • 目的:消除他以前那种“自由发挥”的坏习惯,让他学会遵守严格的排版规则

第三阶段:格式约束的强化学习(练内功)

  • 比喻:这是最精彩的一步,相当于给作家配了一位**“死板但公正的考官”,并实行“连坐制”**。
  • 做法
    • 让作家一次生成 10 个答案。
    • 考官(奖励机制)会检查:公式能编译吗?表格的行列对得上吗?括号闭合了吗?
    • 如果答案里有错,就扣分;如果完美,就奖励。
    • 关键点:如果 10 个答案里只有 1 个是对的,那这个“对”的答案就会被强化,其他的会被淘汰。
  • 目的:通过这种“自我纠错”的机制,让模型学会自我反省,确保生成的每一个符号都符合逻辑,彻底杜绝“结构幻觉”。

3. 数据工厂:如何收集“好教材”?

训练 AI 需要大量高质量的“教材”。但网上的文档千奇百怪,有的太简单,有的太复杂,有的格式乱七八糟。

  • 传统做法:像大海捞针一样随机抓取数据(容易抓到一堆简单的,抓不到难的)。
  • FireRed-OCR 的做法(几何 + 语义数据工厂)
    • 几何聚类:不看文字内容,只看**“长相”**。把长得像“复杂表格”、“多栏报纸”、“手写笔记”的文档单独挑出来。
    • 智能筛选:就像**“精挑细选”**。把那些太简单的文档扔掉,把那些最难、最特殊的文档(长尾数据)留下来,甚至用更高级的 AI 去帮它们“改错”,生成完美的标准答案。
    • 结果:训练出来的模型,不仅见过简单的文档,更见过各种“地狱难度”的文档,所以它什么都能搞定。

4. 成果:小模型也能打败大模型

最让人惊讶的是,FireRed-OCR 用的模型只有 20 亿参数(2B),而它打败的对手很多是 2000 亿甚至 3000 亿参数 的超级大模型(如 Qwen3-VL-235B, GPT-4o 等)。

  • 比喻:这就像是一个经过特种训练的特种兵(FireRed-OCR),虽然个头小,但在“文档识别”这个特定战场上,比那些身怀绝技但样样稀松的巨人(通用大模型) 还要强。
  • 成绩:在权威的 OmniDocBench 测试中,它拿到了 92.94% 的分数,排第一。特别是在表格还原公式识别上,它比那些大模型强了整整一大截。

总结

FireRed-OCR 告诉我们一个道理:在 AI 领域,“专才”往往比“通才”更有用

通过**“精心挑选的教材(数据工厂)”** + “循序渐进的训练(三阶段策略)” + “严格的自我纠错(强化学习)”,我们可以把通用的 AI 模型,低成本、高效率地变成处理复杂文档的顶级专家。这对于把纸质文件数字化、处理金融报表、整理学术论文等实际工作来说,是一个巨大的进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →