DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een oude, vergeelde brief van je overgrootvader moet lezen. De handschrift is krullerig, de inkt is vervaagd en de letters lijken op elkaar. Een computer moet dit lezen. Vroeger deden computers dit traag en met veel moeite, alsof ze elke brief opnieuw van nul af aan moesten schrijven terwijl ze zich alles wat ze eerder hadden gelezen moesten herinneren.

Deze paper introduceert een nieuwe, slimme manier om dit te doen, genaamd DRetHTR. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Onthoudende" Computer

De beste computersystemen voor het lezen van handschrift gebruiken momenteel een technologie die lijkt op een gigantisch geheugenblok.

Hoe het nu werkt: Stel je voor dat de computer een zin leest. Voor elk nieuw woord dat hij schrijft, moet hij alle woorden die hij daarvoor heeft gelezen, opnieuw bekijken en in zijn geheugen bewaren.
Het nadeel: Hoe langer de zin, hoe meer ruimte dit geheugenblok nodig heeft. Het is alsof je een gesprek voert en voor elk nieuw woord dat je zegt, je de hele vorige conversatie opnieuw moet uitschrijven op een nieuw vel papier. Dit kost veel tijd en energie, vooral bij lange documenten.

2. De Oplossing: DRetHTR (De Slimme Verteller)

De auteurs hebben een nieuw systeem bedacht dat werkt als een slimme verteller in plaats van een archivaris.

De "Retentive Network" (RetNet): In plaats van alles op te slaan, heeft dit systeem een manier om informatie te "onthouden" die groeit in een lineaire, efficiënte manier. Het is alsof de verteller een korte samenvatting van het gesprek bijhoudt in zijn hoofd, in plaats van de hele tekst op te schrijven.
Het resultaat: Het systeem is 1,6 tot 1,9 keer sneller en gebruikt 40% minder geheugen dan de huidige beste systemen, zonder dat het minder goed leest. Het is alsof je een auto hebt die net zo snel rijdt als een Formule 1-auto, maar met de brandstofefficiëntie van een fiets.

3. De Twee Slimme Trucs

Hoe doen ze dit? Ze gebruiken twee creatieve trucs:

A. De "Twee-Weg" Straat (ARMF)

Stel je voor dat de computer twee soorten informatie verwerkt:

De afbeelding (de foto van het handschrift).
De tekst (de letters die hij moet genereren).

In oude systemen werden deze door elkaar gehusseld, wat de "geheugenbloat" veroorzaakte. DRetHTR maakt een slim onderscheid:

Voor het kijken naar de afbeelding gebruikt het een krachtige, directe blik (Softmax-attention). Dit is nodig om de kromme lijnen van de letters te zien.
Voor het schrijven van de tekst gebruikt het de nieuwe, snelle "onthoud-methode" (Retention). Omdat tekst lineair is (letter na letter), hoeft het systeem niet alles opnieuw te bekijken, maar kan het gewoon doorgaan met de samenvatting.
Analogie: Het is alsof je een boek leest. Om de illustraties te begrijpen, kijk je ze goed aan (traag maar grondig). Maar om de tekst te lezen, lees je gewoon door, woord voor woord, zonder steeds terug te bladeren naar de eerste pagina.

B. De "Lagen van Focus" (Layer-wise Gamma Scaling)

Een ander probleem is dat computers soms te veel focus hebben op de directe omgeving en vergeten kijken naar de grote lijn, of andersom.

De oplossing: Het systeem is opgebouwd uit lagen (zoals een taart).
- De onderste lagen kijken heel dichtbij: ze focussen op de kromming van één specifieke letter.
- De bovenste lagen kijken verder weg: ze begrijpen de context van de hele zin.
Analogie: Stel je voor dat je een bos bekijkt. De onderste lagen kijken naar de bladeren op één takje. De bovenste lagen kijken naar het hele bos. Door deze lagen slim te laten samenwerken, begrijpt de computer zowel de details als de betekenis van de zin, zonder dat het systeem verward raakt.

4. Waarom is dit belangrijk?

Vroeger waren systemen die goed konden lezen, traag en zwaar. Systemen die snel waren, maakten vaak fouten.
DRetHTR breekt die regel. Het combineert de snelheid en efficiëntie van een snelle verteller met de nauwkeurigheid van een grondige archivaris.

Conclusie in één zin:
DRetHTR is als een super-snelle, geheugen-efficiënte robot die oude handschriften kan lezen alsof het een gesprek voert, in plaats van als een robot die elke zin moet herschrijven om te begrijpen wat er staat. Hierdoor kunnen historische documenten, administratieve formulieren en archieven veel sneller en goedkoper digitaal worden gemaakt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

State-of-the-art systemen voor Handgeschreven Tekstherkenning (HTR) maken vaak gebruik van Transformer-architecturen. Hoewel deze modellen uitstekende prestaties leveren, hebben ze een significant nadeel tijdens de inferentie (decoding): ze vereisen een groeiende Key-Value (KV) cache. Voor een sequentie van lengte $N$ groeit de geheugenbehoefte kwadratisch ( $O(N^2)$ ) en de rekentijd per stap lineair met de sequentielengte ( $O(N)$ ). Dit maakt decoding traag en geheugenintensief, vooral bij lange teksten. Bestaande alternatieven zoals RNNs zijn efficiënter in geheugen, maar missen de parallelle trainingsmogelijkheden en de globale contextmodelleringscapaciteit van Transformers.

Methodologie: DRetHTR

De auteurs introduceren DRetHTR, een decoder-only model gebaseerd op Retentive Networks (RetNet). Het doel is om de snelheid en geheugenefficiëntie van recurrente netwerken te combineren met de nauwkeurigheid van Transformers, zonder de groeiende KV-cache.

De kern van de methodologie bestaat uit drie belangrijke innovaties:

Decoder-Only Architectuur met Image-Text Fusie:
In tegenstelling tot traditionele encoder-decoder modellen, gebruikt DRetHTR alleen een decoder. Beeldtokens (afgeleid van de handgeschreven lijn) en teksttokens worden in één sequentie samengevoegd.
- Image Embedding: Er wordt gebruikgemaakt van EfficientNetV2 (voortgezet op ImageNet) om beeldfeatures te extraheren, die worden omgezet in een reeks beeldtokens.
- Text Embedding: Tekst wordt op karakterniveau getokeniseerd.
Attention-Retention Modality Fusion (ARMF):
Dit is de centrale component die de beperkingen van pure RetNet en pure Transformer oplost.
- Beeld-Beeld en Beeld-Tekst interacties: Voor de interacties tussen beeldtokens (en tussen beeld en tekst) wordt softmax-attention behouden. Dit zorgt voor sterke uitlijning van visuele features. Omdat alle beeldtokens al bekend zijn tijdens de inferentie, kan dit parallel worden berekend zonder een groeiende cache.
- Tekst-Tekst interacties: Voor de autoregressieve generatie van tekst (tekst naar tekst) wordt softmax-vrije retentie gebruikt. Dit maakt gebruik van een causale, exponentieel afnemende decay-matrix ( $D$ ). Hierdoor kan de inferentie recursief worden uitgevoerd met een constante kost per stap ( $O(1)$ ) en lineair geheugengebruik ( $O(N)$ ), zonder KV-cache.
Layer-wise Gamma Scaling (Multi-Scale Priors):
Een uitdaging bij het verwijderen van softmax is het verlies van de inductieve bias die Transformers hebben: het vermogen om zowel lokale als globale afhankelijkheden te modelleren.
- De auteurs introduceren een strategie waarbij de decay-factor $\gamma$ per laag verschilt.
- Schuine lagen: Kiezen voor een kleinere $\gamma$ (snellere decay), wat de focus legt op lokale afhankelijkheden (kortetermijncontext).
- Diepere lagen: Kiezen voor een grotere $\gamma$ (langzamere decay), wat de focus legt op bredere context (langetermijncontext).
- Dit nabootst het gedrag van Transformers waarbij schuine lagen lokale patronen vangen en diepere lagen globale context, maar dan met de efficiëntie van retentie.

Kernbijdragen

DRetHTR Architectuur: Een decoder-only RetNet specifiek ontworpen voor lijn-niveau handgeschreven tekstherkenning.
ARMF Mechanisme: Een hybride aanpak die softmax behoudt voor beeldintegratie (voor nauwkeurige uitlijning) maar softmax elimineert voor tekstgeneratie (voor efficiëntie).
Layer-wise Gamma Scaling: Een methode om de lokale-naar-globale inductieve bias van Transformers te herstellen binnen een retentief netwerk, waardoor de flexibiliteit van attention wordt gecompenseerd.
Efficiëntie: Het model bereikt lineaire tijd en lineair geheugengebruik tijdens decoding, in tegenstelling tot de kwadratische geheugenkosten van Transformers.

Resultaten

Het model is getest op vier benchmarks: IAM (Engels), RIMES (Frans), READ-2016 (Duits) en Bentham (Engels, historisch).

Nauwkeurigheid: DRetHTR bereikt state-of-the-art of zeer competitieve resultaten:
- IAM: 2.26% CER (Character Error Rate).
- RIMES: 1.81% CER.
- Bentham: 3.46% CER.
- READ-2016: 4.21% CER.
Snelheid en Geheugen:
- DRetHTR is 1.6x tot 1.9x sneller in inferentie dan een even groot decoder-only Transformer-baseline (DTrHTR).
- Het verbruikt 38% tot 42% minder geheugen.
- Bij beam search schaalt het model veel beter: terwijl de geheugenbehoefte van Transformers groeit met de beam size en sequentielengte, blijft de geheugenbehoefte van DRetHTR constant per beam.

Betekenis en Conclusie

Het paper demonstreert dat het mogelijk is om de hoge nauwkeurigheid van Transformer-gebaseerde HTR-systemen te behouden, terwijl de inferentiekosten drastisch worden verlaagd. Door de groeiende KV-cache te vervangen door een recursieve retentiestaat en slimme modale fusie (ARMF) toe te passen, biedt DRetHTR een praktische oplossing voor real-time en resource-beperkte toepassingen.

De studie bevestigt dat softmax-vrije retentie, wanneer gecombineerd met gestructureerde inductieve biases (zoals layer-wise gamma scaling), een krachtig alternatief is voor attention-mechanismen in visuele taaksequenties. Dit opent de deur voor efficiëntere, schaalbare HTR-systemen die minder afhankelijk zijn van zware GPU-resources tijdens de inferentie.

DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

1. Het Probleem: De "Onthoudende" Computer

2. De Oplossing: DRetHTR (De Slimme Verteller)

3. De Twee Slimme Trucs

A. De "Twee-Weg" Straat (ARMF)

B. De "Lagen van Focus" (Layer-wise Gamma Scaling)

4. Waarom is dit belangrijk?

Probleemstelling

Methodologie: DRetHTR

Kernbijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration