DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Lire une écriture manuscrite est un casse-tête

Imaginez que vous devez lire des milliers de pages de vieux journaux, de lettres d'ancêtres ou de dossiers administratifs écrits à la main. C'est un travail colossal pour les humains. Les ordinateurs peuvent le faire, mais c'est comme essayer de remplir un camion de déménagement avec des grains de sable : c'est lent et ça prend énormément de place.

Les systèmes actuels les plus performants (basés sur une technologie appelée "Transformers") fonctionnent comme un lecteur très méticuleux mais très gourmand. Pour comprendre un mot, il doit se souvenir de tous les mots précédents qu'il a lus, en les stockant dans une mémoire géante. Plus le texte est long, plus cette mémoire explose, rendant la lecture lente et coûteuse en énergie.

🚀 La Solution : DRetHTR, le "Lecteur Économe"

Les chercheurs de l'Université d'Erlangen-Nuremberg ont créé un nouveau système appelé DRetHTR. Pour faire simple, c'est comme remplacer un camion de déménagement lourd par un scooter agile et rapide.

Voici comment cela fonctionne, avec quelques analogies :

1. La Mémoire : Le Camion vs. Le Scooter

L'ancien système (Transformer) : Imaginez un lecteur qui, pour comprendre la dernière phrase d'un livre, doit relire et garder en tête toutes les phrases précédentes. S'il lit un roman de 500 pages, il doit avoir 500 pages de notes devant lui. C'est lourd !
Le nouveau système (RetNet/DRetHTR) : Imaginez un lecteur qui a une mémoire fluide. Il ne garde pas tout le texte en tête. Il garde juste l'essentiel de ce qui vient d'être lu et laisse le reste s'effacer doucement, comme une vague qui recule.
- Résultat ? Il lit 1,6 à 1,9 fois plus vite et utilise 40 % moins de mémoire (comme si vous passiez d'un camion de 10 tonnes à une petite voiture).

2. Le Défi : Ne pas oublier le contexte

Si on oublie trop vite, on perd le sens de la phrase. C'est là que l'astuce principale de DRetHTR intervient : l'échelle des souvenirs.

L'analogie de la loupe et du télescope :
- Dans les premières couches du système (les "couches profondes"), le lecteur utilise une loupe. Il regarde très près, mot par mot, pour comprendre les détails de l'écriture (est-ce un "e" ou un "c" ?). Il se souvient juste des mots tout proches.
- Dans les couches plus hautes, il passe au télescope. Il regarde plus loin pour comprendre le contexte global de la phrase (est-ce qu'on parle de cuisine ou de politique ?).
- Pourquoi c'est génial ? Au lieu d'avoir une seule mémoire qui essaie de tout faire, le système spécialise ses "souvenirs" : les détails au début, le contexte à la fin. Cela remplace la lourdeur des anciens systèmes sans perdre en précision.

3. La Fusion : L'œil et la plume

Lire une écriture manuscrite, c'est faire deux choses en même temps :

Voir l'image (la forme des lettres).
Comprendre le texte (la grammaire, la logique).

DRetHTR utilise une technique appelée ARMF (Fusion Modale).

Imaginez un chef cuisinier (le système) qui a deux assistants : un œil (pour voir l'image) et un oreille (pour entendre le texte).
L'œil et l'oreille travaillent ensemble, mais chacun a son propre style de communication. L'œil utilise une communication rapide et instantanée (comme un cri) pour pointer les détails de l'image. L'oreille utilise une conversation fluide et continue pour construire la phrase.
Cette séparation intelligente permet d'être très précis sans ralentir la cuisine.

🏆 Les Résultats : Rapide, Économe et Précis

Grâce à cette nouvelle approche, DRetHTR a battu les records sur plusieurs tests internationaux :

Il reconnaît le français (RIMES), l'anglais (IAM, Bentham) et l'allemand (READ-2016) avec une précision incroyable (moins de 2 % d'erreurs sur certains tests).
Il est aussi précis que les géants actuels (comme les modèles basés sur GPT-2), mais il est beaucoup plus rapide et consomme beaucoup moins d'énergie.

💡 En résumé

Imaginez que vous deviez lire une bibliothèque entière.

L'ancienne méthode vous obligeait à emporter toute la bibliothèque dans votre tête pour lire chaque page.
DRetHTR, c'est comme avoir un super-lecteur qui sait exactement quoi retenir, quoi oublier, et qui lit à la vitesse de l'éclair, tout en gardant une mémoire de fer pour le contexte.

C'est une avancée majeure pour numériser notre patrimoine écrit sans avoir besoin de super-ordinateurs coûteux. C'est la fin de l'ère du "lourd et lent" pour l'écriture manuscrite !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La reconnaissance de texte manuscrit (HTR - Handwritten Text Recognition) repose actuellement sur des architectures de pointe basées sur les Transformers. Bien que performants, ces modèles souffrent de deux limitations majeures lors de l'inférence (décodage) :

Coût computationnel et mémoire : L'attention auto (self-attention) nécessite la construction et le stockage d'une carte d'attention de taille $N \times N$ (ou d'un cache clé-valeur croissant) pour une séquence de longueur $N$ . Cela rend le décodage lent et gourmand en mémoire, surtout pour les longues séquences.
Compromis avec les RNN : Les réseaux récurrents (RNN) offrent un décodage constant par étape et une mémoire linéaire, mais ils manquent de parallélisme à l'entraînement et ont souvent des performances inférieures aux Transformers.

L'objectif est de concevoir un modèle HTR qui combine la précision des Transformers avec l'efficacité de décodage linéaire des RNN, sans sacrifier la précision.

2. Méthodologie : DRetHTR

Les auteurs proposent DRetHTR, un modèle uniquement décodeur (decoder-only) basé sur les Réseaux de Rétention (RetNet). L'architecture repose sur trois innovations clés :

A. Architecture Uniquement Décodeur avec Fusion de Modalités (ARMF)

Contrairement aux architectures encodeur-décodeur classiques, DRetHTR fusionne les tokens d'image et de texte directement dans le décodeur. Pour gérer cette fusion sans perdre l'efficacité du décodage récurrent, ils introduisent la couche Attention-Retention Modality Fusion (ARMF) :

Interactions Image-Image et Image-Texte : Elles utilisent l'attention softmax standard. Cela permet une alignement fort et flexible entre les caractéristiques visuelles et le contexte textuel. Comme le traitement des tokens d'image est parallèle, cela ne génère pas de cache KV croissant dépendant de la longueur du texte généré.
Interactions Texte-Texte : Elles utilisent la rétention sans softmax (mécanisme de rétention causal). Cela permet un décodage récurrent avec un coût constant par token ( $O(1)$ ) et une mémoire linéaire ( $O(N)$ ), évitant ainsi l'explosion du cache KV.

B. Mise à l'échelle Gamma par Couche (Layer-wise Gamma Scaling)

L'absence de softmax dans la rétention supprime l'induction biaisée "local-vers-global" typique des Transformers (où les couches peu profondes capturent le contexte local et les couches profondes le contexte global).

Pour compenser cela, les auteurs proposent une stratégie de mise à l'échelle du facteur de décroissance $\gamma$ :
- Les couches peu profondes utilisent un $\gamma$ plus petit pour accentuer les dépendances locales (court terme).
- Les couches profondes utilisent un $\gamma$ plus grand pour capturer un contexte plus large (long terme).
Cette approche imite le biais inductif des Transformers tout en conservant l'efficacité du mécanisme de rétention.

C. Extraction de Caractéristiques Visuelles

Au lieu d'un simple patch embedding, le modèle utilise EfficientNetV2 pré-entraîné pour extraire des caractéristiques visuelles riches. Ces caractéristiques sont ensuite projetées en tokens d'image pour être fusionnés avec les tokens de texte dans le décodeur.

3. Contributions Clés

DRetHTR : Premier modèle HTR entièrement décodeur basé sur RetNet, capable d'un décodage en temps linéaire et en mémoire linéaire.
Fusion Modale Hybride (ARMF) : Une architecture innovante qui préserve l'attention softmax pour l'alignement image-texte (nécessaire pour la précision) tout en utilisant la rétention sans softmax pour la génération de texte (nécessaire pour l'efficacité).
Stratégie de Décroissance Adaptative : L'introduction d'une mise à l'échelle de $\gamma$ par couche pour restaurer la capacité du modèle à modéliser à la fois les dépendances locales et globales, comblant l'écart de flexibilité par rapport aux Transformers.
Performance et Efficacité : Démonstration qu'il est possible d'atteindre une précision de niveau Transformer avec une inférence nettement plus rapide et une consommation mémoire réduite.

4. Résultats Expérimentaux

Le modèle a été évalué sur plusieurs benchmarks standards (IAM, RIMES, READ-2016, Bentham) avec des comparaisons contre des Transformers (TrOCR, DTrOCR) et d'autres architectures HTR.

Précision (CER - Taux d'erreur de caractères) :
- IAM (Anglais) : 2,26 % (meilleur résultat rapporté).
- RIMES (Français) : 1,81 %.
- Bentham (Anglais, manuscrit historique) : 3,46 %.
- READ-2016 (Allemand) : 4,21 % (compétitif).
- Ces résultats surpassent ou égalent les meilleurs modèles basés sur des Transformers de taille comparable.
Efficacité (Vitesse et Mémoire) :
- Vitesse : DRetHTR est 1,6 à 1,9 fois plus rapide en inférence qu'un Transformer décodeur de taille équivalente.
- Mémoire : Réduction de l'utilisation mémoire de 38 % à 42 %.
- Évolutivité (Beam Search) : Contrairement aux Transformers dont la mémoire et le temps augmentent avec la taille du faisceau (beam size) et la longueur de la séquence, DRetHTR maintient une complexité constante grâce à son état récurrent fixe.

5. Signification et Impact

Ce travail démontre que les Réseaux de Rétention (RetNet) constituent une alternative viable et supérieure aux Transformers pour la reconnaissance de texte manuscrit, en particulier dans des scénarios nécessitant une inférence rapide et une faible empreinte mémoire.

Déverrouillage de l'efficacité : En éliminant le cache KV croissant, DRetHTR rend possible le déploiement de modèles HTR de haute précision sur des dispositifs aux ressources limitées ou pour des applications temps réel.
Nouveau paradigme de fusion : L'approche ARMF suggère qu'il n'est pas nécessaire d'utiliser l'attention softmax partout pour obtenir de bonnes performances ; une hybridation stratégique (softmax pour la vision, rétention pour le langage) peut offrir le meilleur des deux mondes.
Généralisation : Le modèle montre une forte capacité de généralisation à travers différentes langues, styles d'écriture et niveaux de dégradation (documents historiques), prouvant la robustesse de l'architecture.

En résumé, DRetHTR établit un nouvel état de l'art pour l'efficacité de l'inférence en HTR sans compromettre la précision, ouvrant la voie à des applications de transcription à grande échelle plus rapides et moins coûteuses.