Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie und ein hochintelligenter Roboter stehen vor einem kleinen, verschwommenen Bild. Es sieht aus wie ein japanisches Zeichen, aber es ist so unscharf, dass es sowohl wie ein „so" (ソ) als auch wie ein „n" (ン) aussehen könnte.

Die Frage ist: Werden Sie und der Roboter das Gleiche sehen?

Dies ist die Kernfrage einer neuen Studie von Daichi Haraguchi. Er hat untersucht, wie gut moderne KI-Modelle (sogenannte „Vision-Language Models" wie GPT oder Gemini) japanische Zeichen erkennen – und zwar nicht nur, ob sie richtig liegen, sondern wie sie zu ihrer Entscheidung kommen.

Hier ist die Erklärung der Studie in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Experiment: Der „Misch-Keks"

Stellen Sie sich zwei Kekse vor: Einer ist ein „so"-Keks, der andere ein „n"-Keks. Sie sehen sich fast identisch an, nur dass der Winkel eines kleinen Strichs leicht anders ist.

Der Forscher hat nun einen „Misch-Keks" gebacken. Er hat 15 verschiedene Stufen zwischen den beiden Keksen erstellt.

Stufe 0: Ein ganz klarer „so"-Keks.
Stufe 10: Ein ganz klarer „n"-Keks.
Stufe 5: Ein Keks, der genau in der Mitte liegt und für jeden unsicher ist.

2. Aufgabe 1: Nur der Keks (Ohne Kontext)

Zuerst zeigten sie den Menschen und der KI nur den einzelnen, verschwommenen Keks.

Die Menschen: Sie waren sehr sicher. Wenn der Keks nur ein winziges bisschen mehr nach „n" aussah, sagten sie sofort „n". Ihre Entscheidung war wie ein Lichtschalter: Einmal ist es aus, einmal ist es an.
Die KI: Die KI war viel zögerlicher. Selbst wenn der Keks fast eindeutig ein „n" war, sagte die KI manchmal noch: „Hmm, vielleicht ist es ja doch ein 'so'?"
- Die Metapher: Stellen Sie sich vor, Sie sind ein Richter. Wenn die Beweise zu 99 % für eine Schuld sprechen, sagen Sie „Schuldig". Die KI hingegen sagt bei 99 % vielleicht noch: „Es könnte ja auch ein Versehen gewesen sein." Sie hat eine andere „Schwelle" für die Entscheidung als wir.

3. Aufgabe 2: Der Keks im Keks-Kuchen (Mit Kontext)

Dann wurde es spannender. Der Forscher nahm den unsicheren Keks und backte ihn in einen ganzen Kuchen (ein japanisches Wort).

Beispiel: Das Wort „Dance" (ダンス). Wenn das mittlere Zeichen unsicher ist, ist es schwer zu sagen, ob es „Dance" oder ein sinnloses Wort ist.
Der Clou: Manchmal war das Wort so gewählt, dass es nur mit „so" Sinn ergab, manchmal nur mit „n". Und manchmal gab es im selben Wort noch andere klare Zeichen, die halfen.

Was passierte?

Die Menschen: Sie nutzten den Kontext wie ein Kompass. Wenn das Wort „Dance" passte, sagten sie sofort „n", auch wenn das Zeichen selbst unscharf war.
Die KI: Hier wurde es interessant.
- Bei manchen Wörtern half der Kontext der KI, sich menschlicher zu verhalten.
- Aber bei anderen Wörtern blieb die KI stur. Sie ignorierte den Kontext teilweise und blieb bei ihrer eigenen, seltsamen Vorliebe für das eine oder andere Zeichen hängen.
- Die Metapher: Wenn Sie in einem Raum stehen, in dem alle „Hallo" sagen, werden Sie auch „Hallo" sagen. Die KI tut das manchmal, aber manchmal sagt sie trotzdem „Tschüss", weil sie im Inneren noch an ihre eigene Regel glaubt.

4. Das große Fazit: Warum ist das wichtig?

Die Studie zeigt uns etwas Wichtiges: Eine hohe Punktzahl in einem Test bedeutet nicht, dass die KI „denkt" wie ein Mensch.

Der Unterschied: Menschen sind flexibel. Wir nutzen den Kontext (die Umgebung), um Unsicherheiten sofort aufzulösen. Die KI ist oft starrer. Sie schaut sich das Bild an, rechnet Wahrscheinlichkeiten, aber sie hat nicht immer das gleiche „Bauchgefühl" wie wir.
Die Gefahr: Wenn wir nur testen, ob die KI das richtige Wort schreibt, merken wir nicht, warum sie es schreibt. Sie könnte das richtige Wort aus dem falschen Grund gewählt haben.
Die Lösung: Um KI wirklich zu verstehen, müssen wir sie nicht nur in perfekten Situationen testen, sondern auch in Situationen, in denen sie unsicher ist und wo wir sehen müssen, wie sie mit Hilfe von Kontext (oder ohne ihn) entscheidet.

Zusammengefasst:
Die KI ist wie ein sehr guter Schüler, der die Antworten auswendig gelernt hat, aber manchmal nicht versteht, warum sie richtig sind. Wenn wir sie in eine Situation bringen, die für uns Menschen klar ist (durch den Kontext), kann sie manchmal mit uns mithalten. Aber wenn wir genau hinschauen, merken wir, dass ihr „Denkprozess" immer noch ein bisschen anders funktioniert als unserer. Und das ist wichtig zu wissen, bevor wir ihr zu viel vertrauen!

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz hoher Genauigkeit bei der Texterkennung in Bildern durch große Vision-Language-Modelle (VLMs) wie GPT-5.1 oder Gemini 2.5-Flash ist nicht gewährleistet, dass diese Modelle menschliche Entscheidungsprozesse bei der Auflösung von Mehrdeutigkeiten nachahmen.

Das Kernproblem: Wenn visuelle Evidenz unsicher ist, nutzen Menschen flexibel Kontextinformationen, um Eingaben zu disambiguieren. Es ist unklar, ob VLMs diese Flexibilität aufweisen oder ob sie stattdessen andere, potenziell verzerrte Entscheidungsmuster verfolgen.
Der Testfall: Die Studie konzentriert sich auf die japanischen Katakana-Zeichen ソ (so) und ン (n). Diese unterscheiden sich primär nur in einem geometrischen Merkmal (Strichwinkel), sind aber visuell sehr ähnlich. Dies eignet sich ideal, um abgestufte Mehrdeutigkeit und kontextgesteuerte Disambiguierung zu untersuchen.

2. Methodik

Die Forschung kombiniert computergestützte Stimuli-Generierung mit einem kontrollierten User-Study und VLM-Experimenten.

A. Stimuli-Generierung via $\beta$ -VAE

Um statische Datensätze zu überwinden, wurde ein $\beta$ -VAE (Variational Autoencoder) verwendet, um einen kontinuierlichen Übergang (Interpolation) zwischen den Zeichen so und n zu erzeugen.

Training: Das Modell wurde auf einem Datensatz von 364 Schriftarten (Google Fonts) trainiert, um eine latente Repräsentation von Zeichenformen zu lernen.
Synthese: Durch lineare Interpolation im latenten Raum zwischen den Vektoren von so ( $z_{so}$ $z_{so}$ ) und n ( $z_n$ $z_{n}$ ) wurden 15 gleichmäßig verteilte Stufen ( $\alpha \in [0, 1]$ $α \in [0, 1]$ ) generiert.
- $\alpha = 0,0$ : Reines so.
- $\alpha = 1,0$ : Reines n.
- Dazwischen: Visuell mehrdeutige Glyphen.

B. Experimentelle Bedingungen

Die Studie untersuchte zwei Szenarien (Research Questions, RQs):

RQ1: Shape-Only (Form allein): Erkennung isolierter Zeichen.
- Human: 30 Teilnehmer, 150 Versuche (10 Schriftarten $\times$ 15 Interpolationsstufen).
- VLM: GPT-5.1 und Gemini-2.5-Flash, jeweils 10 unabhängige Queries pro Stimulus.
RQ2: Shape-in-Context (Form im Kontext): Ein mehrdeutiges Zeichen (X) wurde in Wörter eingebettet.
- Sole-Occurrence: Das Wort enthält keine weiteren unmissverständlichen so- oder n-Zeichen (nur lexikalische Constraints).
- Co-Occurrence: Das Wort enthält zusätzlich unmissverständliche so- oder n-Zeichen an anderer Stelle (innerhalb des Wortes).
- Human: ~390 Teilnehmer, Auswahl der Wortlesung aus Multiple-Choice-Optionen.
- VLM: Gleiche Prompting-Strategie wie bei Menschen.

3. Wichtige Beiträge

Methodischer Ansatz: Entwicklung einer Pipeline zur Erzeugung kontinuierlich variierender visueller Mehrdeutigkeiten mittels $\beta$ -VAE, um Entscheidungsfronten (Decision Boundaries) präzise zu kartieren.
Vergleichsrahmen: Direkter Vergleich von menschlichen und VLM-Entscheidungen nicht nur auf Basis der Genauigkeit, sondern basierend auf dem Verhalten unter kontrollierter Ambiguität und in verschiedenen Kontexten.
Diagnostisches Werkzeug: Demonstration, dass Minimal-Kontext-Eingaben als effektives Diagnosewerkzeug für die Ausrichtung (Alignment) zwischen Mensch und KI dienen.

4. Ergebnisse

RQ1: Shape-Only (Isolierte Zeichen)

Menschen: Zeigten eine glatte, monotone Zunahme der Wahrscheinlichkeit, n zu wählen, wenn $\alpha$ gegen 1,0 ging (nahezu Sättigung bei 100 %).
VLMs (Gemini & GPT):
- Die Entscheidungsgrenzen unterschieden sich signifikant von denen der Menschen (nachgewiesen durch Likelihood-Ratio-Tests).
- Gemini: Folgte dem Trend, saturierte aber unterhalb des menschlichen Niveaus.
- GPT: Zeigte ein nicht-monotones Muster; bei $\alpha=1,0$ (visuell eindeutig n) tendierte das Modell wieder zu so.
- Fazit: Selbst bei visuell eindeutigen Endpunkten erreichen VLMs nicht die menschliche „Sättigung", was auf eine verbleibende Verzerrung (Bias) hindeutet.

RQ2: Shape-in-Context

Sole-Occurrence (Schwacher Kontext):
- In so-biased Kontexten war Gemini menschlich ähnlich, GPT jedoch signifikant anders (tendiert zu n).
- In n-biased Kontexten war GPT menschlich ähnlich, Gemini jedoch extrem zu n verzerrt.
- Dies zeigt, dass Wort-Ebene-Präsentation VLM-Urteile stark beeinflusst, aber nicht immer menschlich konsistent.
Co-Occurrence (Starker Kontext):
- Das Vorhandensein weiterer eindeutiger Zeichen im Wort verbesserte die Ausrichtung (Alignment) in vielen Fällen.
- In so-biased Kontexten waren beide VLMs nun menschlich ähnlich.
- In n-biased Kontexten blieben jedoch modellspezifische Tendenzen bestehen (Gemini wählte fast ausschließlich n, GPT war näher am Menschen, aber dennoch signifikant unterschiedlich).
Gesamt: Kontext kann das Verhalten von VLMs verschieben und die menschliche Ähnlichkeit erhöhen, eliminiert aber nicht alle modellspezifischen Verzerrungen.

5. Bedeutung und Schlussfolgerung

Die Studie zeigt, dass hohe Erkennungsgenauigkeit nicht mit menschlichem Entscheidungsverhalten gleichzusetzen ist.

Qualitative Unterschiede: VLMs reagieren auf visuelle Mehrdeutigkeit anders als Menschen (z. B. langsamere Übergänge, fehlende Sättigung bei eindeutigen Endpunkten).
Kontextabhängigkeit: Das Hinzufügen von Kontext (Wortebene) verändert das Verhalten von VLMs signifikant. In einigen Fällen (starke Co-Occurrence-Hinweise) nähern sie sich dem menschlichen Verhalten an, in anderen bleiben sie verzerrt.
Implikation für Benchmarks: Um die Ausrichtung von Mensch und KI sinnvoll zu bewerten, reicht es nicht aus, nur stark kontextualisierte Benchmarks zu nutzen. Es ist notwendig, Modelle sowohl unter deliberat minimal-kontextuellen Bedingungen (Shape-Only) als auch unter kontextualisierten Bedingungen zu testen. Nur so lassen sich fundamentale Unterschiede in der Wahrnehmung und Entscheidungsfindung aufdecken.

Die Arbeit liefert somit eine Grundlage für die Entwicklung robusterer Benchmarks, die nicht nur die Leistung, sondern auch das Verhalten von KI-Systemen bei der Auflösung von Ambiguitäten bewerten.

Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

1. Das Experiment: Der „Misch-Keks"

2. Aufgabe 1: Nur der Keks (Ohne Kontext)

3. Aufgabe 2: Der Keks im Keks-Kuchen (Mit Kontext)

4. Das große Fazit: Warum ist das wichtig?

1. Problemstellung

2. Methodik

A. Stimuli-Generierung via β\betaβ-VAE

B. Experimentelle Bedingungen

3. Wichtige Beiträge

4. Ergebnisse

RQ1: Shape-Only (Isolierte Zeichen)

RQ2: Shape-in-Context

5. Bedeutung und Schlussfolgerung

Mehr davon

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation

Logic-Gated Time-Shared Feedforward Networks for Alternating Finite Automata: Exact Simulation and Learnability

CLPIPS: A Personalized Metric for AI-Generated Image Similarity

Runtime Burden Allocation for Structured LLM Routing in Agentic Expert Systems: A Full-Factorial Cross-Backend Methodology

DarwinNet: An Evolutionary Network Architecture for Agent-Driven Protocol Synthesis

A. Stimuli-Generierung via $\beta$ -VAE