Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Titre : "La Forme contre le Contexte : Pourquoi les IA et les Humains ne voient pas les choses de la même façon"

Imaginez que vous essayez d'apprendre à un robot à reconnaître des lettres japonaises. Le chercheur, Daichi Haraguchi, a voulu tester si ces robots (les IA) pensent comme nous, les humains, quand ils sont face à un doute.

Pour faire cela, il a choisi deux lettres japonaises qui sont presque identiques, comme deux jumeaux séparés par un cheveu :

ソ (qui se prononce "so")
ン (qui se prononce "n")

La seule différence est un tout petit angle dans le trait. C'est comme si l'une avait le nez un tout petit peu plus pointu que l'autre.

🧪 L'Expérience : La "Machine à Mélanger"

Au lieu de montrer juste la lettre "so" ou la lettre "n", le chercheur a utilisé une sorte de machine magique (un modèle mathématique appelé $\beta$ -VAE) pour créer une pente continue.

Imaginez que vous avez une photo de "so" et une photo de "n". La machine crée 15 photos intermédiaires où la lettre change très doucement, comme un dégradé de couleur.

Photo 1 : C'est clairement "so".
Photo 8 : C'est un mélange flou, on ne sait plus trop.
Photo 15 : C'est clairement "n".

Le but ? Voir à quel moment précis l'humain et l'IA changent d'avis.

🧠 Partie 1 : Le Test "Isolé" (Sans Aide)

La question : Si je vous montre juste cette lettre floue, sans aucun mot autour, que voyez-vous ?

Les Humains : Ils sont très logiques. Plus la lettre ressemble à "n", plus ils disent "n". C'est une ligne droite, fluide. Quand la lettre est 100% "n", ils disent "n" à 100%.
Les IA (GPT et Gemini) : Elles sont plus... bizarres.
- Elles hésitent beaucoup plus longtemps. Même quand la lettre est presque 100% "n", elles ont encore du mal à dire "n". Elles restent accrochées à "so".
- C'est comme si l'IA avait une mémoire têtue : elle a du mal à oublier ce qu'elle a vu au début, même quand les preuves visuelles sont claires.

La leçon : Même si l'IA est excellente pour lire des textes, elle ne "voit" pas les formes de la même manière que nous. Ses frontières mentales sont floues.

📖 Partie 2 : Le Test "Avec Contexte" (Avec une Histoire)

La question : Et si on met cette lettre floue dans un mot ? Par exemple, dans le mot "Dance" (ダンス).

Ici, le chercheur a créé deux situations :

Le mot seul : Juste le mot avec la lettre floue.
Le mot avec des indices : Un mot où la lettre floue est accompagnée d'autres lettres claires qui aident à deviner.

Ce qui s'est passé :

Les Humains : Nous utilisons notre cerveau pour deviner. Si le mot ressemble à "Dance", on dit "Ah, c'est 'n' !", même si la lettre est un peu floue. On utilise le contexte comme une loupe.
Les IA :
- Parfois, le contexte les aide beaucoup et elles deviennent plus proches des humains.
- Mais parfois, elles restent têtues. Même avec le mot "Dance" écrit, certaines IA continuent de dire "so" parce que la forme de la lettre leur semble trop proche de "so".

C'est comme si vous disiez à un ami : "Regarde, c'est un chien !" (contexte), mais que l'IA, elle, regarde juste la queue et dit : "Non, c'est un chat" (forme), parce qu'elle ne fait pas confiance à votre explication.

💡 Pourquoi est-ce important ? (L'Analogie du Détective)

Imaginez que vous engagez un détective (l'IA) pour résoudre un crime.

Si vous lui donnez juste une empreinte digitale floue (le test isolé), il va peut-être se tromper parce qu'il ne sait pas interpréter les nuances.
Si vous lui donnez l'empreinte + le contexte (le suspect était dans la pièce), il va peut-être mieux comprendre.

Le problème, c'est que ce détective (l'IA) ne raisonne pas comme un humain. Il ne se trompe pas de la même façon.

L'humain est flexible : il change d'avis facilement si le contexte change.
L'IA est rigide : elle reste souvent bloquée sur sa première impression visuelle, même si les indices autour disent le contraire.

🏁 Conclusion Simple

Ce papier nous dit deux choses importantes :

La performance ne suffit pas : Une IA peut avoir un score de lecture parfait, mais comprendre les images d'une manière très différente des humains.
Il faut tester les deux : Pour savoir si une IA est vraiment "intelligente" comme nous, il ne faut pas seulement la tester avec des mots complets (faciles), mais aussi avec des images floues et isolées (difficiles). C'est seulement là qu'on voit si elle a vraiment compris ou si elle a juste "deviné".

En résumé : Les IA sont de superbes lecteurs, mais elles ne voient pas le monde avec les mêmes yeux que nous. Et c'est crucial de le savoir pour faire confiance à leurs décisions dans la vraie vie.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de vision et de langage (VLM) tels que GPT et Gemini affichent une haute précision dans la reconnaissance de texte. Cependant, une haute précision ne garantit pas que ces modèles adoptent les mêmes modèles de décision que les humains, en particulier face à l'ambiguïté visuelle.

Le défi : Les humains utilisent flexiblement le contexte pour désambiguïser des entrées visuelles incertaines. Il est incertain que les VLM fassent de même ou s'ils suivent des biais décisionnels différents.
L'objectif : Caractériser l'écart comportemental entre les humains et les VLM en comparant leurs frontières de décision dans deux scénarios : la reconnaissance de caractères isolés (forme seule) et la reconnaissance de caractères intégrés dans un mot (forme dans le contexte).

2. Méthodologie

A. Génération des Stimuli (Interpolation)

Pour créer une ambiguïté visuelle contrôlée et continue, l'auteur a utilisé un $\beta$ -VAE (Variational Autoencoder) :

Cible : La paire de caractères japonais « ソ » (so) et « ン » (n), qui diffèrent principalement par l'angle d'un trait mais sont globalement très similaires.
Processus : Un modèle $\beta$ -VAE a été entraîné sur 364 polices de caractères (Google Fonts). Les représentations latentes de « so » et « n » ont été interpolées linéairement pour générer 15 échantillons continus ( $\alpha \in [0, 1]$ ) allant de « so » pur à « n » pur.
Contexte : Ces caractères ambigus (notés X) ont été insérés dans des mots réels pour créer deux conditions :
1. Occurrence unique (Sole-Occurrence) : Le mot ne contient aucun autre « so » ou « n » non ambigu.
2. Co-occurrence (Co-Occurrence) : Le mot contient d'autres instances claires de « so » ou « n », fournissant des indices internes.

B. Protocole Expérimental

L'étude compare les réponses de participants humains et de deux VLM (GPT-5.1 et Gemini-2.5-Flash) via deux questions de recherche (RQ) :

RQ1 (Tâche "Forme seule") : Reconnaissance d'un caractère isolé.
- Humains : 30 participants, 150 essais chacun (10 polices $\times$ 15 niveaux d'interpolation).
- VLM : 10 requêtes indépendantes par stimulus (température 1.0).
RQ2 (Tâche "Forme dans le contexte") : Reconnaissance du mot entier contenant le caractère ambigu X.
- Humains : ~390 participants, choix multiple parmi les lectures plausibles du mot.
- VLM : Même configuration de prompts que pour les humains.

3. Résultats Clés

RQ1 : Frontières de décision en "Forme seule"

Différence de courbes : Les humains montrent une augmentation monotone et lisse des votes pour « n » à mesure que $\alpha$ augmente, atteignant un plafond (ceiling) à $\alpha=1.0$ .
Comportement des VLM :
- Gemini : Suit la tendance générale mais sature en dessous du niveau humain (ne atteint pas 100 % de votes pour « n » même à $\alpha=1.0$ ).
- GPT : Présente un motif non monotone, revenant vers la catégorie « so » à $\alpha=1.0$ (le point le plus proche de « n » visuellement).
Conclusion : Les frontières de décision des VLM diffèrent qualitativement de celles des humains, même sans contexte, révélant des biais résiduels forts (ex: GPT favorise « so » même face à un « n » pur).

RQ2 : Alignement en "Forme dans le contexte"

Contexte d'occurrence unique :
- L'alignement est partiel. Dans les contextes biaisés vers « so », Gemini s'aligne bien avec les humains, mais GPT s'en écarte.
- Dans les contextes biaisés vers « n », Gemini devient très biaisé vers « n » (différent des humains), tandis que GPT s'aligne mieux.
Contexte de co-occurrence (indices internes) :
- La présence d'autres caractères clairs dans le mot modifie significativement les réponses.
- Amélioration de l'alignement : Dans les contextes « so », la co-occurrence rend le comportement de GPT beaucoup plus proche de celui des humains.
- Persistance des biais : Malgré l'amélioration, des tendances spécifiques aux modèles persistent. Par exemple, Gemini reste presque exclusivement orienté vers « n » dans les contextes biaisés « n », même lorsque les humains montrent une légère variabilité.

4. Contributions Principales

Benchmarking comportemental : L'article propose une méthode pour évaluer l'alignement Humain-IA au-delà de la simple précision, en cartographiant les frontières de décision via l'interpolation continue.
Diagnostic par le contexte minimal : Il démontre que les entrées à contexte minimal (forme seule) sont des diagnostics cruciaux pour révéler des biais que les benchmarks riches en contexte masquent.
Nuance sur l'alignement : L'alignement n'est pas binaire ; il dépend du type de contexte (occurrence unique vs co-occurrence) et du modèle spécifique. L'ajout de contexte peut rapprocher les VLM des humains, mais ne corrige pas nécessairement tous les biais internes.

5. Signification et Implications

Limites des benchmarks actuels : Les évaluations standard basées sur la précision peuvent masquer des différences fondamentales dans la façon dont les modèles résolvent l'ambiguïté perceptuelle.
Conception de l'IA : Pour une évaluation robuste de l'alignement Humain-IA, il est impératif de tester les modèles dans des conditions délibérément à contexte minimal (pour révéler les biais de forme) ET dans des conditions contextualisées (pour évaluer la flexibilité).
Futur de la recherche : Les auteurs suggèrent d'explorer la distinction entre les effets de la signification du mot et les indices de co-occurrence pure (via des pseudo-mots) pour comprendre ce qui pilote les changements de comportement des VLM.

En résumé, cette étude met en lumière que les VLM ne "pensent" pas comme les humains face à l'ambiguïté visuelle, et que l'ajout de contexte, bien qu'utile, ne suffit pas à uniformiser leurs comportements décisionnels avec ceux des humains.