ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dit rapport presenteert de ICDAR 2025 competitie voor end-to-end machinevertaling van documentafbeeldingen met complexe lay-outs, waarbij 69 teams deelnamen aan twee tracks (OCR-vrij en OCR-gebaseerd) en de resultaten aantonen dat grote modellen een veelbelovend paradigma vormen voor dit domein.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een oude, ingewikkelde krant of een wetenschappelijk artikel uit een ander land in handen hebt. De tekst staat erin, maar hij is verstrikt in een wirwar van kolommen, tabellen, voetnoten en plaatjes. Als je dit wilt vertalen, is het alsof je een enorme puzzel moet oplossen waarbij je niet alleen de woorden moet begrijpen, maar ook precies moet weten waar ze staan op de pagina.

Dit is precies wat de ICDAR 2025 Competitie over "Document Image Machine Translation" (DIMT) heeft uitgedaagd. Hier is een simpele uitleg van wat er gebeurde, vertaald naar alledaags Nederlands:

🧩 De Grote Uitdaging: De "Puzzel-Vertaler"

Normaal gesproken kunnen computers tekst vertalen (zoals Google Translate) en kunnen ze tekst uit plaatjes halen (zoals OCR, oftewel "scannen"). Maar als je een heel document met een rommelige lay-out wilt vertalen, haken deze systemen vaak af. Het is alsof je een vertaler vraagt die blind is, maar wel een boek moet lezen terwijl iemand de pagina's door elkaar haalt.

De organisatoren van deze wedstrijd wilden een systeem bouwen dat dit in één keer kan: van het plaatje van het document direct naar een perfect vertaalde, goed gestructureerde tekst.

🏁 Twee Spoorwegen (Tracks)

Deelnemers moesten kiezen uit twee verschillende manieren om dit probleem aan te pakken:

  1. Spoor 1: De "OCR-Hulp" (Met hulpmiddelen)

    • Het idee: Hier mag je eerst een scanner (OCR) gebruiken om de tekst uit het plaatje te halen. Maar de scanner maakt vaak fouten: woorden staan in de verkeerde volgorde, of stukjes ontbreken.
    • De taak: De AI moet die rommelige, door elkaar gehaalde woorden weer in de juiste volgorde zetten en ze vertalen. Het is alsof je een zee van losse legpuzzelstukjes krijgt en die moet samenvoegen tot een compleet plaatje.
    • Deelnemers: 34 teams deden hieraan mee.
  2. Spoor 2: De "OCR-Vrije" (Zonder hulpmiddelen)

    • Het idee: Hier mag je geen scanner gebruiken. De AI moet rechtstreeks naar het plaatje kijken en begrijpen wat er staat, net zoals een mens dat doet.
    • De taak: De AI moet het hele document "zien", de lay-out begrijpen (waar zit de titel? waar begint de tabel?) en het direct vertalen naar een netjes opgemaakt bestand (Markdown). Dit is de moeilijkste versie, alsof je blindelings een boek moet lezen en vertalen.
    • Deelnemers: 35 teams deden hieraan mee.

🧠 Grote Reuzen vs. Slimme Dwergen

Binnen elk spoor waren er twee categorieën voor de "hersenen" (de modellen) die de teams gebruikten:

  • De Reuzen (LLMs): Grote modellen met meer dan 1 miljard parameters. Dit zijn de "super-intelligente" systemen die veel kunnen, maar ook veel rekenkracht nodig hebben.
  • De Dwergen (Small Models): Kleiner dan 1 miljard parameters. Deze moeten slim zijn met weinig middelen, alsof je een fiets hebt in plaats van een vrachtwagen.

🏆 Wat gebeurde er?

In totaal deden 69 teams mee, waaronder universiteiten en bedrijven zoals Huawei. Ze leverden 27 goede inzendingen in.

  • De winnaars: Het team Hw-tsc (van Huawei) won in bijna alle categorieën. Ze gebruikten een krachtig model genaamd InternVL2.5.
  • Het resultaat: De "Reuzen" (grote modellen) deden het over het algemeen beter dan de "Dwergen". Ze konden de ingewikkelde lay-outs en de betekenis van de tekst beter begrijpen.
  • De verrassing: Hoewel de "OCR-Hulp" (Spoor 1) nog steeds iets beter presteerde, naderden de "OCR-Vrije" systemen (Spoor 2) ze snel. Dit betekent dat AI steeds beter wordt in het "zien" en begrijpen van documenten zonder dat ze eerst tekst hoeven te scannen.

💡 De Grote Les (Conclusie)

Deze wedstrijd toonde aan dat:

  1. Groot is vaak beter: Voor complexe documenten (zoals wetenschappelijke papers met veel tabellen) werken de grote modellen het beste.
  2. Finetuning is key: Zelfs kleinere modellen konden goed presteren als ze specifiek waren getraind op dit soort documenten.
  3. De toekomst is "OCR-vrij": We bewegen ons snel naar een tijd waarin computers documenten kunnen lezen en vertalen zonder dat we eerst een tussenstap nodig hebben.

Kortom: De AI is nu in staat om die rommelige, ingewikkelde documenten van vroeger niet alleen te vertalen, maar ook te begrijpen hoe ze eruitzien. Het is een enorme stap voorwaarts voor het automatiseren van documentverwerking in de toekomst!