Just Use XML: Revisiting Joint Translation and Label Projection

Die Studie stellt mit LabelPigeon ein neues XML-basiertes Framework vor, das die gemeinsame Übersetzung und Label-Projektion ermöglicht und dabei sowohl die Übersetzungsqualität verbessert als auch signifikante Fortschritte beim cross-lingualen Transfer erzielt.

Thennal D K, Chris Biemann, Hans Ole Hatzel

Veröffentlicht 2026-03-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache, bildhafte Erklärung der Forschungspaper „Just Use XML" auf Deutsch.

Das Problem: Die „Übersetzungs-Post"

Stellen Sie sich vor, Sie haben einen sehr wertvollen Schatz in einer Sprache (z. B. Englisch), der mit roten Markierungen versehen ist. Diese Markierungen sagen uns: „Das hier ist ein Name", „Das hier ist ein Datum" oder „Das hier ist ein Ort". Das ist wie ein gut sortierter Briefkasten, bei dem jeder Brief eine farbige Klammer hat.

Nun wollen wir diesen Schatz in eine andere Sprache (z. B. Deutsch) bringen, damit auch Menschen dort davon profitieren können. Das Problem: Wenn wir den Text einfach nur übersetzen, gehen die roten Klammern oft verloren oder sitzen am falschen Ort.

Bisherige Methoden waren wie ein komplizierter Zweischritt-Prozess:

  1. Schritt 1: Der Text wird übersetzt (die Klammern werden dabei ignoriert oder entfernt).
  2. Schritt 2: Ein zweiter, separater Roboter versucht, die roten Klammern mühsam auf den neuen Text zu „projizieren" (aufzudrücken).

Das Problem an dieser alten Methode: Der zweite Schritt ist oft ungenau, und der erste Schritt (die Übersetzung) leidet manchmal darunter, weil die Maschinen versuchen, die Klammern später mühsam wiederzufinden. Es ist, als würde man ein Foto machen, es ausdrucken und dann versuchen, mit einem Lineal und Bleistift die Gesichter auf dem Foto nachzuzeichnen. Das Ergebnis ist oft schief.

Die Lösung: LabelPigeon – Der „XML-Taxi"-Ansatz

Die Autoren dieses Papers, Thennal D K, Chris Biemann und Hans Ole Hatzel, haben eine neue Idee entwickelt, die sie LabelPigeon nennen.

Stellen Sie sich vor, Sie nehmen die roten Klammern nicht weg, sondern verwandeln sie in XML-Tags. Das sind wie kleine, unsichtbare Etiketten, die direkt im Text stehen, wie <Name>Tesla</Name> oder <Datum>1886</Datum>.

Die geniale Idee:
Anstatt den Text erst zu übersetzen und dann die Etiketten zu suchen, sagen sie dem Übersetzungs-KI-Modell: „Übersetze den Text und behalte die Etiketten dabei bei!"

Das ist wie ein Taxifahrer, der nicht nur den Fahrgast (den Text) von A nach B bringt, sondern auch dessen Gepäck (die Markierungen) sicher mitnimmt und direkt am Zielort in die richtige Regalecke stellt. Der Fahrer weiß genau, dass das Gepäck mitkommen muss.

Warum funktioniert das besser?

  1. Kein „Zweischritt"-Chaos: Früher musste die KI raten, wo die Markierungen im neuen Text hingehören. Jetzt weiß sie es, weil die Markierungen (<Name>) Teil des Satzes sind, den sie gerade übersetzt.
  2. Bessere Qualität: Die Autoren haben herausgefunden, dass die Übersetzung sogar besser wird, wenn die KI die Markierungen kennt! Warum? Weil die KI lernt, dass bestimmte Wörter (wie Namen oder Daten) zusammengehören und nicht zerstückelt werden dürfen. Es ist, als würde ein Dolmetscher, der weiß, dass ein Name wichtig ist, diesen Namen besonders sorgfältig aussprechen, anstatt ihn zu verschlucken.
  3. Einfachheit: Früher brauchte man komplexe Pipelines (eine Kette von verschiedenen Programmen). LabelPigeon ist wie ein Ein-Knopf-System: Text eingeben, XML-Tags drin, fertig. Das Ergebnis kommt sofort heraus.

Was haben sie bewiesen?

Die Forscher haben das System an über 200 Sprachen getestet.

  • Die Übersetzungen waren oft besser als bei den alten Methoden.
  • Die Markierungen (die Labels) trafen fast immer den richtigen Ort, auch wenn die Sätze kompliziert waren (z. B. wenn ein Name in einem Datum steckt).
  • Der Gewinn: Bei Aufgaben wie dem Erkennen von Namen (Named Entity Recognition) gab es in manchen Sprachen einen riesigen Sprung nach oben (bis zu +39,9 Punkte!).

Fazit in einem Satz

Statt den Text erst zu übersetzen und dann mühsam die Markierungen nachträglich aufzukleben, gibt LabelPigeon der KI die Markierungen direkt mit auf den Weg. Das Ergebnis ist eine saubere Übersetzung, bei der die wichtigen Informationen (die „Etiketten") automatisch und perfekt an der richtigen Stelle landen – ohne dass die Qualität der Sprache darunter leidet.

Kurz gesagt: Es ist der Unterschied zwischen einem Postboten, der den Brief erst öffnet, übersetzt und dann versucht, das Siegel wieder aufzukleben, und einem Boten, der den Brief in einem versiegelten, durchsichtigen Umschlag transportiert, der das Siegel automatisch mit ins neue Land bringt.