AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition

Each language version is independently generated for its own context, not a direct translation.

🏺 Le Défi : Apprendre l'histoire sans oublier le passé

Imaginez que vous êtes un bibliothécaire chargé de classer des milliers de vieux parchemins chinois. Le problème ? Ces parchemins n'arrivent pas tous en même temps.

D'abord, on vous donne des tablettes d'argile (écriture très ancienne).
Puis, des inscriptions sur bronze.
Ensuite, des gravures sur pierre, et ainsi de suite, sur des milliers d'années.

Chaque nouvelle période apporte de nouvelles formes de caractères (de nouvelles "classes") et des styles d'écriture très différents. C'est ce que les chercheurs appellent la Reconnaissance Continue de Caractères Chinois.

Le défi est double :

L'oubli : Si vous apprenez à reconnaître les nouveaux caractères, vous risquez d'oublier comment lire les anciens (c'est le "catastrophic forgetting").
La confusion : Un même caractère peut être écrit de 10 façons différentes selon l'artiste ou le matériau (argile, soie, pierre). C'est comme si le mot "Chat" pouvait être écrit "Chat", "Gat", "Khat" ou dessiné avec une queue de plus selon qui l'écrit.

🛠️ La Solution : AMR-CCR (Le Dictionnaire Magique)

Au lieu d'essayer de forcer le cerveau de l'ordinateur à mémoriser une liste fermée de réponses (comme un QCM classique), les auteurs proposent une méthode plus intelligente : la recherche par dictionnaire.

Imaginez que vous ne mémorisez pas les réponses par cœur, mais que vous avez un super-dictionnaire dans lequel vous pouvez ajouter des pages à l'infini.

Voici comment fonctionne leur système, AMR-CCR, avec une analogie simple :

1. Le Dictionnaire à Prototypes Multiples (La Galerie d'Art)

Dans un système classique, on dit : "Ce caractère est un 'A'". Mais si le 'A' est écrit de 3 façons différentes, le système classique se trompe.

L'astuce d'AMR-CCR : Au lieu d'avoir une seule photo de référence pour le caractère "A", le système crée une galerie avec plusieurs prototypes (des photos de référence) pour chaque caractère.
L'analogie : C'est comme si, pour reconnaître un ami, vous ne vous souveniez pas juste de son visage moyen, mais de ses photos sous tous les angles : avec des lunettes, sans lunettes, en souriant, en pleurant. Ainsi, peu importe comment le caractère est écrit, le système trouve sa "famille" dans la galerie.

2. Les Adaptateurs de Style (Les Lunettes de Couleur)

Le plus dur, c'est que chaque période historique (Bronze, Pierre, etc.) a une "ambiance" différente. Si on apprend à lire le Bronze, le système risque de mal lire la Pierre parce que le style a changé.

L'astuce : Le système utilise de petits modules appelés SIA et SAR.
L'analogie : Imaginez que le système porte des lunettes spéciales.
- Quand il voit un parchemin de l'époque "Bronze", il enfile les lunettes "Bronze" pour bien voir les détails.
- Quand il passe à l'époque "Pierre", il change de lunettes.
- Le cœur du système (le cerveau) reste le même, mais ces lunettes ajustent la vision pour s'adapter au style sans tout casser. C'est ce qu'on appelle un "module conditionné par le script".

3. La Mémoire Tampon (Le Carnet de Notes)

Pour ne pas oublier les vieilles périodes quand on apprend les nouvelles, le système garde un petit carnet de notes (un "buffer") avec des exemples des périodes précédentes.

L'analogie : C'est comme un étudiant qui révise ses anciens cours en même temps qu'il apprend le nouveau chapitre, pour ne pas mélanger les dates.

📚 Le Nouveau Terrain de Jeu : EvoCON

Pour tester si leur méthode fonctionne vraiment, les chercheurs ont créé un nouveau jeu appelé EvoCON.

C'est comme un jeu vidéo en 6 niveaux.
Chaque niveau correspond à une période historique différente (de la plus récente à la plus ancienne).
Le joueur doit apprendre le niveau actuel sans oublier les niveaux précédents.
Il y a même un mode "Devine le mot" (Zero-shot) : on montre un caractère que le système n'a jamais vu, mais on lui donne une description de son sens ou de sa forme. Le système doit deviner de quel caractère il s'agit en utilisant son dictionnaire.

🏆 Pourquoi c'est génial ?

Les résultats montrent que cette méthode est bien meilleure que les anciennes :

Elle n'oublie pas : Le système garde ses connaissances des périodes anciennes tout en apprenant les nouvelles.
Elle est flexible : On peut ajouter un nouveau caractère ou une nouvelle période simplement en ajoutant une page au dictionnaire, sans tout réapprendre de zéro.
Elle comprend les nuances : Grâce à la galerie de prototypes multiples, elle ne se trompe pas quand un caractère est écrit de manière bizarre.

En résumé : Au lieu d'essayer de forcer un ordinateur à devenir un expert en tout d'un coup, les chercheurs lui ont donné un dictionnaire intelligent, des lunettes adaptables et une mémoire de révision. Cela permet de numériser et de comprendre l'histoire chinoise de manière fluide, étape par étape, sans jamais perdre le fil.

Each language version is independently generated for its own context, not a direct translation.

Titre : AMR-CCR : Récupération Modulaire Ancrée pour la Reconnaissance Continue des Caractères Chinois

1. Problématique : La Reconnaissance Continue des Caractères Chinois (Continual CCR)

L'article aborde un défi majeur dans la numérisation du patrimoine culturel : la reconnaissance des caractères chinois anciens (CCR). Contrairement aux scénarios de classification fermée (closed-set) traditionnels où l'ensemble des classes est fixe, les flux de travail réels sont non stationnaires :

Croissance continue des classes : De nouveaux matériaux archéologiques sont découverts régulièrement, introduisant de nouveaux scripts (styles d'écriture) et de nouvelles classes de caractères au fil du temps.
Défis spécifiques :
1. Différences inter-classes subtiles : Les caractères de différents scripts ou variantes peuvent être extrêmement similaires, rendant la discrimination difficile.
2. Diversité intra-classe élevée : Un même caractère peut présenter des styles d'écriture très variés selon l'auteur, le support (pierre, bronze, os) et l'état de conservation.
Limites des approches actuelles : Les méthodes de classification standard souffrent d'oubli catastrophique (catastrophic forgetting) lors de l'ajout de nouvelles classes et peinent à gérer la diversité des styles sans réentraînement coûteux.

2. Méthodologie : Le Framework AMR-CCR

Pour surmonter ces limitations, les auteurs proposent AMR-CCR (Anchored Modular Retrieval for Continual CCR), un cadre de récupération basé sur l'embedding (recherche par similarité) plutôt que sur la classification directe.

A. Architecture Fondamentale

Espace d'embedding multimodal partagé : Le modèle utilise un encodeur vision-langage pré-entraîné (Qwen3-VL-Embedding) comme "ancrage de stabilité" (Stability Anchor). Ce backbone est figé pour préserver la géométrie de l'espace d'embedding entre les différentes étapes.
Recherche par dictionnaire : La reconnaissance ne se fait pas via un classifieur, mais par une correspondance de similarité (cosinus) entre l'embedding de l'image requête et un dictionnaire de prototypes. Cela permet d'ajouter de nouvelles classes simplement en ajoutant des entrées au dictionnaire, sans modifier le modèle de base.

B. Modules Clés pour l'Adaptation Continue
Pour gérer le décalage de distribution (distribution shift) lors de l'ajout de nouveaux scripts, AMR-CCR introduit deux modules légers :

SIA (Script-Interface Adapter) : Un module d'injection conditionné par le script. Il effectue une calibration légère et spécifique au script pour les nouvelles données tout en préservant la compatibilité globale de l'espace d'embedding.
SAR (Script-Aware Routing) : Un routeur léger (MLP) qui, lors de l'inférence (où le script est inconnu), prédit quel adaptateur SIA utiliser pour un given image. Cela évite la dilution des caractéristiques et maintient un coût d'inférence constant.

C. Gestion de la Diversité Intra-classe

Dictionnaire Multi-prototypes : Au lieu d'utiliser un seul prototype moyen par classe (ce qui lisse les variations de style), le système construit un dictionnaire avec plusieurs prototypes par classe. Ces prototypes sont générés par clustering (K-moyennes sphériques) sur les embeddings des images d'entraînement, permettant de couvrir les différents modes d'écriture (styles, supports).

D. Entraînement en Deux Phases
À chaque étape $t$ (ajout d'un nouveau script) :

Phase I (Adaptation au nouveau script) : Entraînement du nouveau SIA sur les données du script courant, en utilisant des paires image-texte (description de sens/forme) pour aligner les modalités.
Phase II (Rejeu tamponné) : Utilisation d'un tampon mémoire (buffer) contenant des échantillons des scripts précédents pour réentraîner le SIA et le routeur SAR, assurant la compatibilité croisée et réduisant l'oubli.

3. Contribution : Le Benchmark EvoCON

Les auteurs ont créé EvoCON, un benchmark complet pour évaluer la CCR continue :

Structure : 6 étapes correspondant à l'intégration séquentielle de 6 scripts historiques : Os Oraculaires (OBC), Inscriptions sur Bronze (BI), Script Sceau (SS), Caractères Printemps-Automne (SAC), Caractères des Royaumes Combattants (WSC), et Script Clerical (CS).
Données enrichies : Chaque échantillon est augmenté de descriptions textuelles en chinois simplifié (sens et forme), facilitant l'apprentissage multimodal.
Tâche Zero-Shot : Une division explicite pour évaluer la capacité du modèle à reconnaître des caractères jamais vus (sans exemples d'images) en utilisant uniquement les descriptions textuelles.

4. Résultats Expérimentaux

Les expériences ont été menées sur EvoCON avec des modèles de base de 2B et 8B paramètres (Qwen3-VL-Embedding).

Performance Continue (AA6 - Précision Moyenne Finale) :
- AMR-CCR (8B) atteint 58,59% (Top-1) et 83,09% (Top-10), surpassant largement les méthodes de référence (DER++, EWC, etc.) qui plafonnent autour de 45-46% (Top-1).
- L'amélioration est de +12,74% par rapport à la meilleure méthode de comparaison (DER++).
Stabilité (Oubli - FGT) :
- AMR-CCR maintient un taux d'oubli très faible (1,85% Top-1), comparé à plus de 9% pour le fine-tuning séquentiel simple et ~2,5% pour les méthodes de réentraînement classiques.
Tâche Zero-Shot :
- Le modèle démontre une capacité robuste à reconnaître des caractères inconnus en s'appuyant sur les descriptions de sens (ZS@1 : ~15%, ZS@20 : ~47%), prouvant l'efficacité de l'alignement vision-langage.
Ablation :
- L'ablation confirme que la suppression des modules SIA/SAR fait chuter la performance de manière drastique (retour à un comportement de fine-tuning naïf).
- L'utilisation de prototypes multiples est cruciale : un prototype moyen unique dégrade significativement la précision, soulignant l'importance de capturer la diversité des styles.

5. Signification et Impact

Ce travail représente une avancée significative pour la numérisation du patrimoine culturel chinois :

Paradigme Shift : Il déplace la reconnaissance des caractères anciens d'une approche de classification fermée vers une approche de récupération ouverte et évolutive, mieux adaptée à la réalité des découvertes archéologiques continues.
Robustesse aux Variations : En combinant l'ancrage d'un modèle pré-entraîné, l'adaptation modulaire par script et la gestion multi-prototypes, le système résout le compromis classique entre plasticité (apprendre de nouveau) et stabilité (ne pas oublier l'ancien).
Évolutivité : La capacité à ajouter de nouvelles classes sans réentraînement massif du backbone ouvre la voie à des systèmes de reconnaissance déployables à long terme dans les institutions culturelles.

En résumé, AMR-CCR propose une solution élégante et efficace pour gérer la complexité dynamique et la diversité stylistique inhérentes à la reconnaissance des caractères chinois anciens dans un contexte de flux de données continu.