Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

Lezen, niet denken: Waarom multimodale AI soms "blind" wordt voor tekst

Stel je voor dat je een boek leest. Voor een mens maakt het niet uit of je de tekst ziet op een papieren pagina, op een computer scherm, of als een foto van een krant. Je hersenen herkennen de woorden direct en begrijpen de betekenis.

Maar voor moderne kunstmatige intelligentie (AI), specifiek de grote meervoudige modellen (MLLMs), is dit een heel ander verhaal. Deze AI's zijn getraind om tekst te "lezen" als een reeks van codes (tekens) en afbeeldingen te "lezen" als een rooster van pixels.

De onderzoekers van dit paper hebben ontdekt dat deze AI's vaak veel slechter presteren wanneer ze tekst zien als een foto (pixels) dan wanneer ze dezelfde tekst krijgen als een gewoon bestand (codes). Ze noemen dit het "modale kloof" (modality gap).

Hier is wat ze hebben ontdekt, vertaald naar simpele taal met wat creatieve vergelijkingen:

1. Het probleem: De "Schilderij"-valstrik

Stel je voor dat je een wiskundig probleem oplost.

Situatie A: Je krijgt het probleem als tekst op je scherm. De AI "leest" het direct en rekent het uit.
Situatie B: Je maakt een foto van datzelfde probleem en geeft die aan de AI.

Het verrassende resultaat? De AI faalt vaak dramatisch in Situatie B. Op sommige wiskundetoetsen daalt hun score met wel 60 punten! Het is alsof een briljante student die een examen in het Nederlands kan maken, ineens verlamd raakt zodra hij de vragen op een foto ziet staan.

2. De oorzaak: Het is niet het "denken", maar het "lezen"

De onderzoekers hebben duizenden fouten geanalyseerd om te begrijpen waarom dit gebeurt. Ze ontdekten twee belangrijke dingen:

Het is een leesprobleem, geen denkprobleem:
Stel je voor dat de AI een tolk is die een gesprek vertaalt. Als de tekst als foto wordt gegeven, is de tolk verward door de vorm van de woorden (de lettertypes, de scherpte van de foto), niet door de inhoud.
- De AI vergeet vaak cijfers of tekens (zoals een min-teken) omdat ze op de foto net iets anders lijken.
- De AI maakt fouten in de opmaak (waar moet het antwoord staan?).
- Maar: Als de AI de tekst wel goed heeft gelezen, is haar redenering net zo slim als bij tekst. Ze vergeten geen feiten en hun logica is intact. Het probleem is puur dat ze moeite hebben om de "pixel-woorden" om te zetten in "begrijpelijke woorden".
De "Denk-kramp" (Chain-of-Thought Collapse):
Bij tekst geven AI's vaak een stap-voor-stap uitleg: "Eerst doe ik dit, dan dat..." (zoals een mens die hardop nadenkt).
Bij foto's springen ze echter vaak direct naar het antwoord, zonder na te denken. Het is alsof de AI, zodra ze een foto ziet, haar "denkspier" uitschakelt en hoopt dat ze het antwoord raadt. Dit leidt tot veel rekenfouten.

3. De schuldigen: Lettertypes en Resolutie

De onderzoekers ontdekten dat de manier waarop de tekst op de foto staat, enorm belangrijk is.

Lettertypes: Als je tekst in een standaard lettertype zet, gaat het redelijk. Zet je het in een "handgeschreven" lettertype (dat de AI zelden heeft gezien tijdens haar training), dan zakt de prestatie drastisch. Het is alsof je iemand vraagt een brief te lezen die in een vreemd handschrift is geschreven; ze raken in paniek.
Foto's van echte documenten vs. Kunstmatige foto's: Interessant genoeg werken de AI's juist goed op foto's van echte PDF's of Wikipedia-pagina's. Waarom? Omdat ze tijdens hun training al duizenden van die echte documenten hebben gezien. De "kloof" ontstaat vooral bij kunstmatig gegenereerde foto's die er te strak of te anders uitzien dan wat de AI gewend is.

4. De oplossing: Zelf-oefening (Self-Distillation)

Hoe los je dit op zonder de hele AI opnieuw te bouwen? De onderzoekers bedachten een slimme truc: Zelf-oefening.

Stel je voor dat je een student hebt die goed kan rekenen als hij de som op papier ziet, maar faalt als hij een foto van de som ziet.

Je laat de AI eerst de som oplossen als tekst (waar ze goed in is) en schrijft haar gedachtegang op.
Vervolgens geef je haar dezelfde som, maar nu als foto.
Je zegt tegen de AI: "Kijk naar deze foto, maar gebruik je eigen gedachtegang van de tekstversie om het antwoord te vinden."

Door de AI te trainen om haar eigen goede redeneringen over te brengen van de tekst-versie naar de foto-versie, leren ze hoe ze de "pixel-woorden" moeten vertalen naar hun denkproces.

Het resultaat?
De prestaties op de wiskundetoets (GSM8K) gingen van een rampzalige 30% naar een fantastische 92%. De AI kon ineens net zo goed "lezen" op foto's als op tekst, zonder dat ze haar andere vaardigheden verloor.

Conclusie

Deze studie leert ons dat AI's niet "dommer" worden als ze naar foto's kijken; ze worden gewoon "blind" voor de details van de tekst op de foto. Het is een probleem van waarnemen, niet van intelligentie.

Met de juiste training (zoals het oefenen met hun eigen gedachten) kunnen we deze kloof dichten. De boodschap is optimistisch: als we de AI leren om tekst op foto's net zo goed te "lezen" als wij, kunnen we ze veel betrouwbaarder maken voor taken zoals het begrijpen van screenshots, documenten en foto's van borden.

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

1. Het probleem: De "Schilderij"-valstrik

2. De oorzaak: Het is niet het "denken", maar het "lezen"

3. De schuldigen: Lettertypes en Resolutie

4. De oplossing: Zelf-oefening (Self-Distillation)

Conclusie

1. Het Probleem: De Modality Gap

2. Methodologie

3. Belangrijkste Bevindingen en Resultaten

A. De kloof is taak- en data-afhankelijk

B. Foutenanalyse: "Lezen, niet Denken"

C. OCR is niet de enige boosdoener

4. Oplossing: Zelf-distillatie (Self-Distillation)

5. Significantie en Conclusie

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

1. Het probleem: De "Schilderij"-valstrik

2. De oorzaak: Het is niet het "denken", maar het "lezen"

3. De schuldigen: Lettertypes en Resolutie

4. De oplossing: Zelf-oefening (Self-Distillation)

Conclusie

1. Het Probleem: De Modality Gap

2. Methodologie

3. Belangrijkste Bevindingen en Resultaten

A. De kloof is taak- en data-afhankelijk

B. Foutenanalyse: "Lezen, niet Denken"

C. OCR is niet de enige boosdoener

4. Oplossing: Zelf-distillatie (Self-Distillation)

5. Significantie en Conclusie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance