Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Dit artikel introduceert GLoTran, een raamwerk voor MLLM's dat globale en lokale visuele perceptie combineert om vertalingen in tekstrijke, hoogresolutie afbeeldingen te verbeteren, ondersteund door een nieuw groot dataset genaamd GLoD.

Junxin Lu, Tengfei Song, Zhanglin Wu, Pengfei Li, Xiaowei Liang, Hui Yang, Kun Chen, Ning Xie, Yunfei Lu, Jing Zhao, Shiliang Sun, Daimeng Wei

Gepubliceerd 2026-02-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel groot, drukke poster ziet, vol met kleine letters, grote koppen, foto's en versieringen. Je wilt deze poster vertalen van Engels naar het Nederlands.

Vroeger hadden computers hier twee manieren voor, maar beide hadden grote problemen:

  1. De "Eerst lezen, dan vertalen" methode: De computer probeerde eerst alle tekst eruit te halen (zoals een scanner) en vertaalde die daarna. Maar als de scanner één woord mistte of verkeerd las, was de hele vertaling fout.
  2. De "Kijk alles in één keer" methode: De computer keek naar het hele plaatje en probeerde het direct te vertalen. Het probleem? Als het plaatje te groot en druk is, raakt de computer in de war. Hij ziet de tekst niet meer goed, vergeet zinnen of verzint dingen die er niet staan (hallucinaties).

De oplossing: GLoTran (De Slimme Vertaler)

De auteurs van dit paper hebben een nieuwe manier bedacht, genaamd GLoTran. Ze gebruiken een slimme truc die ze "Globaal-Lokaal Dubbel Zien" noemen. Hier is hoe het werkt, in gewone taal:

1. De Twee Ogen van de Computer

Stel je voor dat de computer twee verschillende brillen heeft die hij tegelijkertijd gebruikt:

  • Bril 1: De Verrekijker (Het Globale Beeld)
    De computer kijkt naar het hele plaatje, maar dan een beetje wazig en klein (zoals een verkleind voorbeeld). Hiermee ziet hij de grote lijn: Waar staat de titel? Wat is de sfeer? Is het een menukaart of een krant? Dit helpt de computer om de context te begrijpen, zodat hij niet zomaar woorden uit de lucht plukt.
  • Bril 2: De Loupe (De Lokale Slierten)
    Vervolgens knipt de computer het plaatje in stukjes, precies waar de tekst zit. Hij vergroot deze stukjes enorm op (zoals met een loupe). Hiermee kan hij de kleine details zien: de letters, de spelling en de specifieke zinnen, zonder afgeleid te worden door de achtergrond.

2. De Regisseur in het Hoofd

De computer doet niet zomaar alles door elkaar. Hij werkt als een slimme regisseur:

  • Hij kijkt eerst naar het kleine stukje tekst (de loupe) om te zien wat er staat.
  • Maar voordat hij gaat vertalen, kijkt hij even naar het wazige grote plaatje (de verrekijker) om te vragen: "Hoe past dit woord in de rest van de zin?"
  • Hij vertaalt stukje voor stukje, maar onthoudt wat hij net heeft vertaald, zodat de hele tekst logisch blijft.

Een analogie uit het dagelijks leven:
Stel je voor dat je een hele lange, rommelige brief moet vertalen die op een bureau ligt, omringd door koffiebekers en krantenknipsels.

  • Een oude computer zou proberen de hele tafel in één keer te scannen en zou waarschijnlijk de koffiebespatten met de tekst verwarren.
  • Een andere computer zou proberen alleen naar de letters te kijken, maar zou vergeten dat de zin eigenlijk over een feestje gaat, omdat hij de rest van de brief niet zag.
  • GLoTran is als een vertaler die eerst even rondkijkt op het bureau om de sfeer te snappen (globaal), en dan met een vergrootglas stukje voor stukje de brief leest, terwijl hij steeds even terugkijkt naar de rest van de brief om zeker te weten dat het verhaal klopt.

Waarom is dit belangrijk?

De auteurs hebben niet alleen de slimme computer bedacht, maar ook een enorme oefenboeken (een dataset genaamd GLoD) gemaakt met 510.000 voorbeelden van zulke drukke plaatjes. Hierdoor heeft de computer geleerd hoe hij moet omgaan met rommelige achtergronden, rare lettertypes en handgeschreven tekst.

Het resultaat:
De computer maakt veel minder fouten. Hij vergeet geen zinnen meer, vertaalt de juiste woorden en houdt het verhaal consistent, zelfs als het plaatje heel groot en druk is. Het is alsof je een vertaler hebt die nooit moe wordt en altijd precies weet wat hij moet doen, of het nu een simpele kaart of een complexe poster is.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →