Just Use XML: Revisiting Joint Translation and Label Projection

Dit paper introduceert LabelPigeon, een raamwerk dat XML-tags gebruikt om vertaling en labelprojectie gelijktijdig uit te voeren, wat leidt tot verbeterde vertaalkwaliteit en aanzienlijke winst in cross-linguale transfer voor downstream-taken zonder de vertaalkwaliteit te schaden.

Thennal D K, Chris Biemann, Hans Ole Hatzel

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we een vertaler leerden om niet alleen te vertalen, maar ook te "plakken" (LabelPigeon)

Stel je voor dat je een heel belangrijk document hebt, bijvoorbeeld een handleiding voor een nieuwe machine. In het Engels zijn de belangrijke onderdelen (zoals "de rode knop" of "het batterijvakje") al gemarkeerd met een speciaal label. Nu wil je dit document in het Nederlands hebben, maar dan ook met diezelfde labels op de juiste plekken.

Vroeger deden mensen dit in twee aparte stappen:

  1. Stap 1: Een computer vertaalde de hele tekst van Engels naar Nederlands.
  2. Stap 2: Een andere computer probeerde te raden waar die labels in de nieuwe tekst hoorden te staan, vaak door te zoeken naar woorden die op elkaar leken.

Het probleem? De vertaling werd vaak rommelig en onnatuurlijk, en de labels kwamen op de verkeerde plekken terecht. Het was alsof je eerst een foto van een huis maakt, en daarna probeert de ramen en deuren met plakband op de nieuwe foto te plakken. Het ziet er vaak raar uit en de ramen zitten soms scheef.

De nieuwe oplossing: LabelPigeon

De auteurs van dit paper (uit Hamburg) zeggen: "Waarom doen we dit niet in één keer?" Ze hebben een slimme truc bedacht, genaamd LabelPigeon.

Hier is hoe het werkt, in gewone taal:

1. De XML-Tag als een "Kleurpotlood"
In plaats van dat de computer de labels na de vertaling moet zoeken, geven ze de vertaler de labels tijdens het vertalen. Ze gebruiken een soort van "kleurpotlood" in de vorm van XML-tags (zoals <rode_knop>).

Stel je voor dat je een vertaler bent die een boek vertaalt. In plaats van dat je eerst het hele boek vertaalt en daarna probeert te raden waar de hoofdstuktitels staan, krijg je het boek al met de titels erin geschreven in een andere kleur. De vertaler ziet: "Ah, hier staat <rode_knop>, dus ik moet in het Nederlands ook iets zeggen dat past bij die rode knop, en ik moet die kleur behouden."

2. Waarom werkt dit beter?
De oude methode dacht dat het toevoegen van die extra "kleurpotloodjes" de vertaling verstoort. Maar LabelPigeon heeft bewezen dat het juist helpt!

  • De analogie: Stel je voor dat je een danspartner hebt. Als je alleen dansstappen doet en later probeert te raden waar je partner stond, mis je de timing. Maar als je samen dansstappen doet, waarbij je elkaars bewegingen ziet, wordt de dans veel vloeiender.
  • Door de labels direct in de tekst te zetten, leert de computer dat de "structuur" (de labels) net zo belangrijk is als de woorden zelf. De vertaling wordt niet alleen beter, maar soms zelfs beter dan zonder labels, omdat de computer beter begrijpt wat er belangrijk is.

3. Wat hebben ze ontdekt?
Ze hebben dit getest op 203 verschillende talen en voor drie verschillende taken (zoals het herkennen van namen, het beantwoorden van vragen en het koppelen van verwijzingen).

  • Resultaat: LabelPigeon is veel beter dan de oude methoden.
  • De verrassing: De vertalingen waren niet slechter, maar juist beter. De computer leerde door de extra training (met die labels) om de taal nog preciezer te gebruiken.
  • Snelheid: Het is ook heel snel. Je hoeft niet eerst te vertalen en dan te plakken; het gebeurt in één keer.

Conclusie voor de gemiddelde lezer
Vroeger dachten we dat je niet twee dingen tegelijk kon doen (vertalen én labels plaatsen) zonder dat het resultaat slecht werd. LabelPigeon bewijst het tegenovergestelde. Door de labels als een integraal onderdeel van de vertaling te behandelen (met XML-tags), krijgen we niet alleen de juiste labels op de juiste plek, maar ook een mooiere, vloeiendere vertaling.

Het is alsof je niet eerst een huis bouwt en daarna probeert de ramen te plaatsen, maar je bouwt het huis direct met de ramen erin. Het resultaat is sterker, mooier en gaat sneller.