Texo: Formula Recognition within 20M Parameters

本文提出了名为 Texo 的轻量级公式识别模型,其参数量仅为 2000 万,通过精心设计与知识蒸馏,在大幅缩减模型体积的同时实现了与顶尖模型相当的性能,从而支持在消费级硬件及浏览器中实时部署。

Sicheng Mao

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Texo 的新模型,它的核心使命非常明确:用极小的“身材”,干出大模型的“活”

想象一下,现在的数学公式识别(比如把一张写满公式的照片变成电脑能读懂的代码)就像是在解一道超级复杂的谜题。以前的“解题高手”(大模型)虽然聪明,但个个都是体重几百公斤的相扑选手,需要巨大的服务器(超级电脑)才能跑动,普通人根本用不起,也跑不动。

而 Texo 呢?它就像是一个体重只有 20 公斤的体操运动员。它只有 2000 万个参数(相当于只有大模型几十分之一的“脑细胞”),却能在普通电脑甚至手机浏览器上,像闪电一样快速、准确地认出复杂的数学公式。

以下是这篇论文的“大白话”解读:

1. 为什么要造 Texo?(痛点)

  • 大模型太“重”了:目前的顶尖模型(比如 UniMERNet 或 PPFormulaNet)虽然厉害,但体积巨大(几亿到几十亿参数)。这就好比你想在自家客厅(普通电脑)里开一场演唱会,却请来了一个需要整个体育馆才能容纳的交响乐团,根本施展不开。
  • 效率太低:大模型跑起来慢,而且需要昂贵的显卡。
  • 需求很大:无论是学生做笔记、老师备课,还是给 AI 大模型“喂”数据,都需要把纸质或图片里的公式快速变成电脑代码(LaTeX)。

2. Texo 是怎么做到“小而美”的?(核心魔法)

作者没有盲目地堆砌硬件,而是用了三个聪明的“瘦身”技巧:

🧠 技巧一:换了一个更聪明的“字典”(词汇蒸馏)

  • 以前的做法:大模型为了懂各种语言,背了一本像《牛津高阶词典》那么厚的字典(5 万个词)。但数学公式其实很“洁癖”,它需要的词其实很少,大部分日常词汇(比如“的”、“了”、“但是”)在数学里根本用不上。
  • Texo 的做法:作者把字典里那些没用的词全删了,只留下了数学专用的 687 个核心词汇。
  • 比喻:就像你要去学做川菜,不需要背下整本《世界百科全书》,只需要背下“麻、辣、鲜、香”和几种核心调料就够了。字典小了,模型要记忆的“负担”就瞬间减轻了 90% 以上。

🧩 技巧二:重新设计了“拼图规则”(Tokenizer 优化)

  • 以前的做法:通用的分词工具(BPE)像是一个不懂数学的切菜工。它可能会把数学符号 \leftarrow(左箭头)硬生生切成 \leftarrow 两块。这就像把“苹果”切成了“苹”和“果”,不仅切碎了意思,还让模型需要拼凑更长的句子,效率低下。
  • Texo 的做法:作者根据数学规则,定制了一个专门的切菜工。它知道 \leftarrow 是一个完整的词,绝不乱切。
  • 比喻:以前是让你把“红烧肉”三个字拆开成“红”、“烧”、“肉”去理解,现在直接给你一盘完整的“红烧肉”。这样模型理解得更快,出错更少。

🏗️ 技巧三:站在巨人的肩膀上“微整形”(知识迁移)

  • Texo 不是从零开始学的,它直接继承了另一个优秀模型(PPFormulaNet-S)的“大脑结构”和“肌肉记忆”。
  • 作者只是把它的“字典”换成了精简版,并重新训练了一下,让它适应新的规则。这就像给一个成年运动员换了一套更轻便的跑鞋,而不是重新培养一个婴儿。

3. 效果怎么样?(成绩单)

  • 体重:从 5800 万参数(PPFormulaNet-S)和 1.07 亿参数(UniMERNet-T)直接降到了 2000 万
  • 速度:比之前的模型快了 7 倍(相比 UniMERNet-T)。
  • 准确度:虽然变小了,但准确率不仅没掉,反而在某些复杂的公式识别上,比原来的“老大哥”还要准!
    • 原因:因为字典精简了,模型不再被那些没用的词干扰,注意力更集中了。

4. 你能怎么用?(落地应用)

作者不仅发了论文,还做了一个网页版应用(可以在浏览器直接打开):

  • 无需安装:不需要你懂代码,不需要配置复杂的软件环境。
  • 隐私安全:所有的计算都在你的浏览器里完成,图片不会上传到服务器,你的隐私绝对安全。
  • 免费快速:就像用计算器一样简单,拍张照,瞬间变代码。

总结

这篇论文告诉我们:在人工智能领域,不一定非要“越大越好”。

通过精心的设计(像给模型做了一次精准的“减肥手术”),我们可以用极少的资源,在普通的设备上实现顶尖的性能。Texo 就像是一个身轻如燕的武林高手,证明了即使没有千军万马(海量参数),只要招式精妙(架构优化 + 知识蒸馏),一样能打赢那些笨重的庞然大物。

这对于未来的应用非常重要:意味着以后我们可以在手机、平板甚至网页上,随时随地、免费且安全地识别复杂的数学公式。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →