From Plausibility to Verifiability: Risk-Controlled Generative OCR for Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un traducteur automatique très intelligent, capable de lire des photos de panneaux, de menus ou de livres anciens. C'est ce qu'on appelle un modèle de "Vision-Langage". Le problème, c'est que ce traducteur est un peu comme un rêveur créatif : parfois, il voit ce qu'il aimerait voir, plutôt que ce qui est réellement écrit sur l'image.

Par exemple, si vous lui montrez un panneau "BANK" (Banque), il pourrait, dans un élan de poétique, écrire "BANK OF AMERICA" ou même inventer une phrase entière, car cela "sonne bien" dans sa tête. C'est ce qu'on appelle une hallucination. Pour un système de reconnaissance de texte (OCR), c'est catastrophique : vous voulez le mot exact, pas une interprétation artistique.

Voici l'explication simple de la solution proposée par les auteurs de cette recherche, le Contrôleur de Risque Géométrique (GRC) :

1. Le Problème : Le "Rêveur" vs. Le "Détective"

Les modèles actuels sont excellents pour deviner la suite logique d'une phrase (comme un écrivain), mais ils sont mauvais pour vérifier si ce qu'ils écrivent correspond exactement à la photo (comme un détective). Ils privilégient la "plausibilité" (ça a du sens) au détriment de la "vérifiabilité" (ça correspond à la réalité).

2. La Solution : Le Comité de Vigilance (Le GRC)

Au lieu de laisser le modèle répondre seul, les auteurs proposent d'ajouter un gardien (le contrôleur) qui ne touche pas au cerveau du modèle, mais qui surveille ses réponses avant de les montrer à l'utilisateur.

Imaginez que le modèle est un journaliste qui doit écrire un article sur une photo. Avant de publier l'article, le rédacteur en chef (le GRC) ne se contente pas de lire une seule ébauche. Il fait appel à 5 journalistes différents (ou 5 versions de la même photo légèrement décalées) pour observer la même scène.

Voici comment le gardien prend sa décision :

L'Épreuve de la Géométrie (Le Test de la Taille) :
Si le panneau sur la photo est petit, le gardien vérifie : "Est-ce que le texte que tu as écrit est trop long pour tenir sur ce panneau ?". Si le modèle écrit une phrase entière pour un petit logo, le gardien dit : "Non, c'est physiquement impossible, je rejette cette réponse." C'est comme vérifier qu'un éléphant ne rentre pas dans une boîte à chaussures.
L'Épreuve du Consensus (Le Vote) :
Le gardien regarde les 5 rapports des journalistes.
- Si 4 sur 5 disent "BANK" et un dit "BANKS", le gardien accepte "BANK".
- Si les 5 journalistes disent des choses totalement différentes (l'un dit "BANK", l'autre "PIZZA", un autre "METRO"), le gardien panique. Il réalise que la photo est floue ou ambiguë. Il décide alors de ne rien dire (c'est ce qu'on appelle l'abstention). Mieux vaut ne pas répondre que de donner une fausse information.
Le Bouton de Contrôle (Le Réglage de la Sévérité) :
L'entreprise qui utilise ce système peut régler un bouton, disons de 1 à 5.
- Réglage 1 (Lâche) : On accepte presque tout, on risque peu de rater des informations, mais on accepte plus d'erreurs.
- Réglage 5 (Stricte) : On ne accepte que si tout le monde est d'accord à 100%. On risque de ne pas répondre souvent, mais quand on répond, on est sûr à 100% que c'est juste.

3. Le Résultat : Moins d'erreurs, plus de confiance

Grâce à ce système, les chercheurs ont montré que :

Les erreurs catastrophiques (comme inventer des mots qui n'existent pas) disparaissent presque totalement.
Le système est capable de dire "Je ne sais pas" quand il est perdu, au lieu d'inventer une réponse.
On peut choisir le niveau de sécurité selon le besoin (comme choisir entre un filet de sécurité lâche ou très serré).

En résumé

Cette recherche transforme un modèle d'IA créatif mais imprévisible en un système fiable et contrôlé. Au lieu de demander au modèle "Qu'est-ce que tu vois ?", on lui demande "Montre-moi ce que tu vois, et prouve-le-moi avec plusieurs angles de vue". Si la preuve ne tient pas la route, le système se tait. C'est une façon intelligente de passer de la "plausibilité" (ça semble vrai) à la "vérifiabilité" (ça est vrai).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Le Décalage de Déploiement

L'article identifie un problème fondamental dans l'utilisation des modèles vision-langage (VLM) figés (frozen) comme moteurs de reconnaissance optique de caractères (OCR) génératifs.

Le conflit Plausibilité vs Vérifiabilité : Les VLM sont entraînés pour optimiser la plausibilité sémantique (prédire le token suivant le plus probable). En revanche, l'OCR nécessite une vérifiabilité géométrique : le texte généré doit être étayé par des preuves visuelles locales et respecter des contraintes géométriques.
Les risques de déploiement : Le décodage autorégressif ouvert (open-ended) conduit à des échecs rares mais catastrophiques, tels que :
- La sur-génération (ajout de texte inexistant).
- Les substitutions non étayées (remplacement de caractères par des mots sémantiquement plausibles mais visuellement incorrects).
Limites des métriques actuelles : Les benchmarks traditionnels (précision moyenne, CER) masquent ces erreurs de "queue de distribution" (long-tail). Une haute précision moyenne ne garantit pas la fiabilité en production, où les erreurs catastrophiques sont inacceptables.
Objectif : Transformer l'OCR génératif en un problème de prédiction sélective (accepter ou s'abstenir) avec un contrôle explicite du risque, sans réentraîner le modèle de base.

2. Méthodologie : Le Contrôleur de Risque Géométrique (GRC)

Les auteurs proposent le Geometric Risk Controller (GRC), une couche de contrôle externe et agnostique au modèle qui opère au moment de l'inférence.

A. Protocole d'Investigation Multi-Vues (Multi-view Probing)

Au lieu d'une seule requête, le système interroge le VLM figé avec $K$ vues géométriquement liées de la même image d'entrée :

Une vue ancre (l'image originale).
$K-1$ vues dérivées par des perturbations géométriques légères (translations, jitter de recadrage, variations d'échelle) qui préservent le contenu textuel.
Chaque vue produit une transcription candidate.

B. Étape de Filtrage Structurel (Structural Screening)

Avant de comparer les transcriptions, chaque sortie subit un filtrage léger et label-agnostique :

Normalisation : Mise en forme canonique (espaces, casse).
Contrainte de longueur géométrique : Une borne supérieure $L_{geom}$ est calculée à partir de la géométrie de l'image (zone de texte visible). Toute chaîne dépassant cette longueur est rejetée comme une sur-génération improbable.
Seules les vues valides ( $v_k=1$ ) sont conservées pour l'analyse.

C. Décision de Consensus et Stabilité

Le contrôleur agrège les vues valides pour prendre une décision d'acceptation ou d'abstention basée sur trois métriques :

Mode unique ( $s^*$ ) : La transcription la plus fréquente parmi les vues valides. Si aucun mode unique n'existe, abstention.
Fraction de vote ( $q$ ) : La proportion de vues valides qui s'accordent sur $s^*$ .
Dispersion ( $\Delta$ ) : La distance d'édition normalisée moyenne entre les vues et le consensus $s^*$ .

Règle d'acceptation :
Une transcription est acceptée uniquement si :

Le nombre de vues valides dépasse un seuil minimum ( $n \ge K_{min}$ ).
Le mode est unique.
La fraction de vote $q$ dépasse un seuil de consensus $\tau(m)$ .
La dispersion $\Delta$ est inférieure à un seuil de stabilité $\kappa$ .

Le paramètre $m$ (indice de sévérité) ajuste le seuil de consensus $\tau(m)$ , permettant de naviguer sur une courbe de compromis Risque-Couverture.

3. Contributions Clés

Reformulation du problème : Passage d'une évaluation basée sur la précision moyenne à une approche centrée sur le risque de déploiement, introduisant la notion de "vérifiabilité géométrique".
Contrôle Agnostique : Proposition d'un contrôleur (GRC) qui ne modifie pas les poids du modèle (frozen VLM) mais agit comme un contrat d'acceptation/abstention auditable.
Validation Empirique : Démonstration que le contrôle explicite du risque réduit drastiquement les erreurs catastrophiques tout en maintenant une couverture élevée, surpassant les méthodes basées uniquement sur la confiance interne du modèle.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois backbones VLM figés (LLaVA-Phi3, Gemma3, GLM-OCR) et deux benchmarks (IIIT5K, ICDAR 2013).

Réduction du Risque Catastrophique :
- Par rapport à la ligne de base "toujours accepter", le GRC réduit massivement le taux d'erreurs extrêmes (Meltdown@2, défini comme la probabilité d'un CER > 200%).
- Exemple : Sur LLaVA-Phi3 avec IIIT5K, le taux de catastrophe chute de 33,7 ‰ (lignes de base) à 0,3 ‰ avec le GRC, tout en maintenant une couverture d'environ 89,5 %.
Supériorité sur les Méthodes de Confiance Interne :
- Comparé à une sélection basée sur la confiance interne (log-probabilités des tokens), le GRC est nettement plus efficace pour supprimer les erreurs catastrophiques, prouvant que la stabilité multi-vues est un signal de risque plus fiable que la confiance interne du modèle.
Contrôle Opérationnel :
- L'ajustement du paramètre $m$ permet de tracer une frontière Risque-Couverture prévisible. Un $m$ plus élevé (plus strict) réduit la couverture mais élimine presque totalement les erreurs catastrophiques.
Coût d'Inférence :
- L'utilisation de $K=5$ vues offre le meilleur compromis coût/performance. Augmenter à $K=7$ n'apporte que des gains marginaux.

5. Signification et Limites

Signification : L'article démontre que pour les systèmes de perception générative, la fiabilité en production ne dépend pas uniquement de la puissance du modèle de base, mais de contrôles explicites sur la sortie. Le GRC transforme un système génératif "boîte noire" en un système sélectif auditable.
Limites :
- Consensus Stable mais Faux : Le système ne peut pas détecter les erreurs qui sont cohérentes sur toutes les vues (ex: un mot mal lu mais stable géométriquement). Le consensus prouve la stabilité, pas la vérité.
- Portée : Actuellement limité au niveau du mot dans des scènes textuelles. Une extension vers la vérification au niveau de la région (region-level) serait nécessaire pour des tâches plus complexes.

Conclusion : Le GRC propose une approche pragmatique pour déployer des VLM en OCR en remplaçant la génération ouverte par un contrat de sélection rigide, réduisant ainsi les risques opérationnels sans nécessiter de réentraînement coûteux des modèles.