OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Each language version is independently generated for its own context, not a direct translation.

Titel: OCR of niet? Een nieuwe kijk op het lezen van documenten met slimme AI

Stel je voor dat je een berg papieren administratie hebt: facturen, verzendbonnen en verzekeringspolicen. In het verleden was het werk om deze papieren om te zetten in digitale data als volgt: eerst een fotokopieerapparaat dat de tekst "leest" (dat heet OCR, ofwel Optical Character Recognition), en daarna een slimme computer die die tekst begrijpt en in een tabeltje zet.

Maar nu zijn er nieuwe, super-slimme AI-modellen (de MLLM's of Multimodale Large Language Models) die zowel naar plaatjes als naar tekst kunnen kijken. De grote vraag in deze paper is: Hebben we die eerste stap (de fotokopieerapparaat-OCR) wel nog nodig?

Hier is wat de onderzoekers van SAP en Stanford hebben ontdekt, vertaald in begrijpelijke taal:

1. De "Twee-stappen" vs. De "Directe Blik"

Vroeger was het proces als het lezen van een boek in het donker: je moest eerst een zaklamp aan doen (OCR) om de letters te zien, en daarna pas proberen te begrijpen wat er staat.
De onderzoekers hebben getest of die nieuwe, slimme AI's het boek ook gewoon kunnen begrijpen als je ze alleen het plaatje (de foto van het document) geeft, zonder de zaklamp.

Het verrassende resultaat: Voor de allersterkste AI's is die "zaklamp" (OCR) vaak niet meer nodig.

Het is alsof je een kind leert lezen. Vroeger moest je eerst de letters op een bordje schrijven (OCR) en dan uitleggen wat ze betekenen. Maar een heel slim kind (de nieuwe AI) kan de letters direct herkennen op het bordje en de betekenis begrijpen, zonder dat iemand ze eerst heeft uitgeschreven.
In veel gevallen werkt het zelfs beter om alleen het plaatje te geven. Waarom? Omdat de AI dan de originele vorm, de lettertypes en de lay-out (waar staat wat op het papier) direct ziet. Als je eerst tekst uitplakt (OCR), gaan soms kleine details verloren, zoals "is dit een 'I' of een '1'?" of "waar begint deze regel precies?".

2. Hoe groter, hoe slimmer (maar niet altijd)

De onderzoekers keken ook of grotere AI-modellen beter presteren.

De regel: Over het algemeen geldt: hoe groter het brein van de AI, hoe beter hij het doet.
De uitzondering: Bij sommige modellen werkt het "alleen plaatje"-principe zo goed, dat ze zelfs beter scoren dan wanneer je ze de tekst plus het plaatje geeft. Het is alsof je iemand een raadsel geeft: soms helpt het als je de hint (de tekst) ook nog eens hardop voorleest, maar bij een heel slimme persoon verwar je de hint alleen maar en is het beter om gewoon naar het raadsel te kijken.

3. De "Fouten-analyse": Een detective voor AI

De onderzoekers wilden niet alleen weten of het werkte, maar ook waarom het soms misging. Ze bouwden een slim systeem dat als een detective werkt:

Als de AI een fout maakt, kijkt deze detective niet alleen naar het antwoord, maar vraagt hij: "Waar ging het mis? Was het de tekst die verkeerd gelezen was? Was het de lay-out die verwarrend was? Of was het gewoon een domme fout van de AI?"
Hierdoor ontdekten ze dat veel fouten komen doordat de instructies niet duidelijk genoeg waren, of omdat de AI de "sfeer" van het document (de structuur) niet goed begreep.

4. De oplossing: Beter praten met de AI

Als je de AI niet alleen een plaatje geeft, maar ook duidelijke instructies en voorbeelden (zoals een recept voor een kok), wordt het resultaat nog veel beter.

Het is alsof je een kok een foto van een gerecht geeft. Als je alleen de foto geeft, maakt hij misschien een verkeerd gerecht. Maar als je zegt: "Kijk naar de foto, maar onthoud: gebruik altijd verse kruiden en meet de zout exact af", dan wordt het gerecht perfect.
Door de instructies te verbeteren, slaagden ze erin om de AI zelfs nog beter te laten presteren dan de oude methode met OCR.

Conclusie: De toekomst is "Plaatje-only"

De belangrijkste boodschap van dit onderzoek is: We hoeven niet meer altijd eerst tekst uit documenten te halen met OCR.

Voor de krachtigste AI's is het vaak slimmer en sneller om ze gewoon het originele documentplaatje te geven. Dit maakt het proces simpeler, goedkoper en minder foutgevoelig. Het is de overgang van "een tekst uit een plaatje halen en dan lezen" naar "direct naar het plaatje kijken en begrijpen".

Kort samengevat in een metafoor:
Vroeger moest je een brief eerst typen op een computer (OCR) voordat je hem kon begrijpen. Nu hebben we zo slimme computers dat je ze de brief gewoon kunt laten zien, en ze begrijpen hem direct, inclusief de handtekening en de krullen op het papier, zonder dat je eerst hoeft te typen. Soms is dat zelfs nog nauwkeuriger!

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

1. De "Twee-stappen" vs. De "Directe Blik"

2. Hoe groter, hoe slimmer (maar niet altijd)

3. De "Fouten-analyse": Een detective voor AI

4. De oplossing: Beter praten met de AI

Conclusie: De toekomst is "Plaatje-only"

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

1. De "Twee-stappen" vs. De "Directe Blik"

2. Hoe groter, hoe slimmer (maar niet altijd)

3. De "Fouten-analyse": Een detective voor AI

4. De oplossing: Beter praten met de AI

Conclusie: De toekomst is "Plaatje-only"

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics