A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

本文提出了一种结合 2D 位置编码的混合视觉 Transformer 编码器与覆盖注意力解码器的数学公式识别方法,通过利用 ViT 的 [CLS] 令牌作为解码器初始嵌入,在 IM2LATEX-100K 数据集上取得了 89.94 的 BLEU 分数并超越了现有最先进水平。

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让电脑“看懂”并“翻译”数学公式的新方法。想象一下,你手里拿着一张写满复杂数学公式的纸条,你想把它变成电脑能读懂的文本代码(LaTeX)。这就像是一个**“看图说话”**的任务,但比普通的看图说话要难上十倍。

为什么难呢?因为普通文字是排成一行的(像火车车厢),而数学公式是立体的(像乐高积木搭成的城堡)。有的数字在上面(上标),有的在下面(下标),有的被分数线隔开,有的括号跨了好几行。

为了解决这个难题,作者们设计了一个**“混合超级大脑”(Hybrid Vision Transformer,简称 HVT)。我们可以把这个系统想象成一个“双核翻译团队”,由一位“观察员”(编码器)和一位“翻译官”**(解码器)组成。

1. 观察员:混合超级大脑 (The Hybrid Encoder)

以前的方法就像是用一只眼睛看东西,或者只盯着局部看,容易漏掉远处的联系。比如,公式里的分子和分母离得很远,普通方法很难把它们联系起来。

作者给观察员装上了两副“眼镜”:

  • 第一副眼镜:CNN 骨干网(像经验丰富的老工匠)
    它先快速扫描整张图,把复杂的数学符号像切蛋糕一样切成小块,提取出基本的形状和特征。这就像老工匠一眼就能认出“这是个根号”、“那是个积分符号”。
  • 第二副眼镜:Vision Transformer (ViT)(像拥有全局视野的指挥官)
    这是核心创新。ViT 不像老工匠那样只盯着局部,它像指挥官一样,能同时看到整个“战场”。它利用一种叫**“自注意力机制”**的技术,让公式里的每一个符号都能“互相聊天”。
    • 比喻:想象公式里的"2"和远处的"π"虽然离得远,但它们其实是一对搭档。ViT 能让"2"瞬间知道"π"的存在,从而理解它们之间的上下级关系(比如上标)。
    • 2D 位置编码:因为数学公式有长和宽两个方向,作者给每个符号都贴上了“经纬度坐标”标签,确保它们不会在翻译时迷路,知道谁在谁的上面,谁在谁的左边。
  • 秘密武器:[CLS] 令牌
    在 ViT 的开头,有一个特殊的“总结员”([CLS] token)。它负责把整张图的信息浓缩成一个“核心摘要”。这个摘要非常关键,因为它直接交给了翻译官,作为翻译的**“开场白”**。

2. 翻译官:带“记忆”的翻译官 (The Decoder with Coverage Attention)

翻译官的任务是根据观察员给的“核心摘要”和“特征图”,一步步写出 LaTeX 代码。

  • 以前的痛点:以前的翻译官容易犯两个错误:
    1. 漏译(Under-parsing):看到一半忘了,少写了一个符号。
    2. 啰嗦(Over-parsing):同一个符号写了两次,或者把不相关的符号强行拼在一起。
  • 解决方案:覆盖注意力机制 (Coverage Attention)
    作者给翻译官发了一本**“工作日志”**。每翻译一个词,翻译官就会在日志里画个勾,记录“这个位置我已经看过了”。
    • 比喻:就像你在读报纸时,手指会指着刚才读过的地方。如果翻译官发现某个地方已经被“画过勾”了,它就知道:“哦,这里已经处理过了,别再盯着看了,去下一个地方吧。”这大大减少了漏字和重复字的错误。
  • 开场白:翻译官不是从零开始,而是直接拿着观察员给的“核心摘要”([CLS] token)作为第一句话的灵感,这让翻译的起点更高,方向更准。

3. 战绩如何?(The Results)

作者在著名的数学公式数据集(IM2LATEX-100K)上进行了测试。这个数据集就像是一个包含 10 万道数学题的“考卷”。

  • 成绩:他们的“混合超级大脑”取得了89.94 分(BLEU 分数),超过了目前世界上所有其他最好的方法(State-of-the-Art)。
  • 准确率:在“完全匹配”(即翻译出来的代码和图片一模一样)的测试中,准确率达到了86.48%,这是一个非常惊人的提升。

4. 总结与未来

简单来说,这篇论文的核心思想就是:
“别只用局部眼光看数学公式,要用全局视野(ViT)去理解符号间的复杂关系,同时给翻译官一本‘工作日志’(覆盖注意力)来防止它犯糊涂。”

未来的计划
虽然现在的模型已经很厉害了,但作者承认它有时候还是不懂“语法规则”(比如括号没闭合)。未来,他们打算给这个系统注入更多的“语法知识”,让它不仅能认出符号,还能真正理解数学的逻辑结构,甚至能处理更复杂的数学问题。

一句话总结
这就好比给电脑装上了一双能看穿立体结构的“透视眼”,并配了一个记性超好、不会漏字的“翻译助手”,让它能完美地把手写的数学公式变成电脑代码。