DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

本文提出了 DRetHTR,一种基于保留网络(RetNet)的纯解码器手写文本识别模型,它通过线性时间复杂度和固定内存占用的机制,在保持与 Transformer 同等精度的同时,实现了比后者快 1.6-1.9 倍且内存消耗降低 38-42% 的高效推理。

Changhun Kim, Martin Mayr, Thomas Gorges, Fei Wu, Mathias Seuret, Andreas Maier, Vincent Christlein

发布于 2026-02-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DRetHTR 的新技术,它的核心任务是让电脑读懂手写文字(比如识别古老的信件、医生的处方或学生的作业)。

为了让你更容易理解,我们可以把这项技术想象成**“给电脑装上了一个超级高效的‘记忆管家’"**。

1. 以前的难题:电脑记性太好,反而累坏了

以前的顶尖手写识别系统(基于 Transformer 架构)就像是一个**“过目不忘但记性太杂”的学生**。

  • 怎么工作? 当它读到一个新字时,它会回头去翻之前读过的所有字,把每一个字都拿出来对比,看看它们之间有什么关系。
  • 问题在哪? 随着句子变长,它需要翻看的“笔记”(也就是论文里说的 KV 缓存)会越来越多。这就好比学生为了写一句话,要把整本书都摊在桌子上。
    • 后果: 速度变慢(翻书太累),内存占用巨大(桌子不够大),而且句子越长,它越容易“崩溃”。

2. 新方案 DRetHTR:聪明的“记忆管家”

作者团队设计了一种新的架构(基于 Retentive Network,简称 RetNet),它不再死记硬背所有细节,而是学会了**“抓重点”和“有选择地遗忘”**。

我们可以用两个生动的比喻来解释它的核心创新:

比喻一:看画与读诗的“分工合作” (ARMF 技术)

想象你在读一本带插图的诗集

  • 以前的做法: 每读一个字,你都要停下来,把整幅画和之前读过的所有字都重新看一遍,试图找出它们之间的联系。这太慢了。
  • DRetHTR 的做法(ARMF 层): 它把任务分成了两部分:
    1. 看图(图像部分): 它用“广角镜头”一次性把整幅画看清楚,记住画面的整体特征。这部分不需要反复翻书,因为画是静止的。
    2. 读诗(文字部分): 对于文字,它像一个**“老练的读者”。它不需要回头翻每一页,而是只记住“最近读过的几个字”(短期记忆)和“文章的大意”**(长期记忆)。
    • 效果: 它把“看图”和“读字”分开处理,既保留了看图时的精准度,又让读字的过程变得像流水一样顺畅,不再需要反复翻找。

比喻二:层层递进的“望远镜” (分层伽马缩放)

以前的系统在处理长句子时,往往对“远处的字”和“近处的字”一视同仁,或者完全忽略远处的字。

  • DRetHTR 的巧思: 它给不同的“记忆层”装上了不同倍数的望远镜
    • 浅层(底层): 装的是**“显微镜”**。它们只关注眼前几个字,比如笔画的连写、字母的形状。这就像你写字时,先关注笔尖怎么动。
    • 深层(高层): 装的是**“广角望远镜”**。它们关注整个句子的语境和语法结构。这就像你写完一句话后,回头看一眼整句话通不通顺。
    • 效果: 这种设计模仿了人类大脑处理信息的方式——先看清细节,再理解大意。这让模型在不需要“死记硬背”所有字的情况下,依然能理解长句子的含义。

3. 实际效果:快如闪电,省如海绵

这项技术带来了实实在在的好处:

  • 速度提升: 识别速度比以前的同类模型快了 1.6 到 1.9 倍。就像从“步行”升级到了“骑自行车”。
  • 内存节省: 占用的电脑内存减少了 38% 到 42%。就像把原本需要大卡车运送的货物,现在用一辆小轿车就能运走。
  • 准确率不降反升: 尽管变快了、省了,但它认字依然非常准,甚至在某些测试集上打破了世界纪录(比如识别古老的英文手写体,错误率低至 2.26%)。

4. 总结:为什么这很重要?

想象一下,世界上有无数珍贵的历史手稿、医院的旧病历、银行的旧单据,它们都锁在档案馆里,因为字迹潦草,电脑读不懂,只能靠人工一个个去认。

DRetHTR 就像是一位不知疲倦、反应极快且记忆力超群的“数字考古学家”。它不需要巨大的服务器集群就能工作,能在几秒钟内把成千上万页的手写文档变成可搜索的文本。

一句话总结:
这项技术通过让电脑学会“聪明地记忆”而不是“死板地背诵”,成功解决了手写识别中“越读越慢、越读越卡”的难题,让古老的文字能以更快的速度、更低的成本被数字化和复活。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →