A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen Freund, der eine Sprache lernt, aber er liest nur Übersetzungen, die von einem sehr strengen, aber etwas steifen Roboter gemacht wurden. Wenn er dann selbst spricht, klingt er nicht wie ein mutiger, lebendiger Mensch, sondern wie ein Roboter, der versucht, menschlich zu klingen. Er benutzt Wörter, die zwar technisch richtig sind, aber sich im echten Leben seltsam, steif oder sogar albern anhören.

Genau dieses Problem untersucht die Studie von Jenny Kunz und ihrem Team an der Universität Linköping. Sie haben ein neues Werkzeug entwickelt, um zu messen, wie sehr künstliche Intelligenz (KI) in Schwedisch noch nach „Roboter-Übersetzung" klingt.

Hier ist die Erklärung der Studie, aufgeteilt in einfache Bilder:

1. Das Problem: Die „Übersetzungs-Spuren" (Translationese)

Wenn Texte von einer Sprache in eine andere übersetzt werden, hinterlassen sie oft Spuren der Ursprungssprache. Das nennt man Translationese.

Die Analogie: Stell dir vor, du backst einen schwedischen Apfelkuchen, aber du folgst einem deutschen Rezept Wort für Wort. Du benutzt vielleicht die falschen Gewürze oder misst die Zutaten in einer anderen Einheit. Der Kuchen schmeckt noch nach Apfel, aber er ist kein echter schwedischer Apfelkuchen mehr. Er ist ein „Deutscher-Kuchen-in-Schweden-Verpackung".
Das Problem bei KI: Frühere Übersetzungs-KIs waren wie dieser strengen Koch. Sie nahmen den englischen Satz und setzten ihn fast wortwörtlich ins Schwedische um. Das Ergebnis war grammatikalisch oft okay, aber es fehlte die natürliche „Seele" der Sprache.

2. Der neue Test: Das „Geschmacks-Panel"

Die Forscher haben eine neue Datenbank (ein Datensatz) erstellt, die wie ein Geschmacks-Test funktioniert.

Das Setup: Sie haben 600 Sätze aus englischen Filmen (Untertitel) genommen.
Der Vergleich: Für jeden Satz gibt es drei Versionen:
1. Die alte, steife Roboter-Übersetzung (OPUS-MT).
2. Die neue, moderne KI-Übersetzung (GPT-5).
3. Die „echte" menschliche Übersetzung, die ein Muttersprachler geschrieben hat.
Die Aufgabe: Sie haben verschiedene KI-Modelle (die „Schüler") gefragt: „Welcher dieser Sätze klingt natürlicher?"

3. Die Ergebnisse: Die KI mag es zu „wörtlich"

Das Ergebnis war überraschend und etwas beunruhigend:

Der steife Geschmack: Die KI-Modelle bevorzugten oft die steifen, roboterhaften Übersetzungen, auch wenn die menschliche Version viel besser klang.
Der „Übersetzungs-Hack": Wenn die KI den englischen Originalsatz sah, fiel sie sofort in den „Übersetzungs-Modus". Sie dachte: „Aha, ich muss das Wort für Wort übertragen!" und ignorierte dabei, wie ein echter Schwede sprechen würde.
Die Überraschung: Wenn man den KI-Modellen den englischen Originalsatz wegnahm und sie nur den schwedischen Satz sehen ließ, wurden sie plötzlich besser! Sie wählten öfter die menschliche, natürliche Version. Das zeigt: Die KI ist so darauf trainiert, dem englischen Text zu folgen, dass sie vergisst, wie schwedisch klingt.

4. Der Kontext: Mehr Hintergrund hilft (ein bisschen)

Die Forscher haben auch getestet, ob mehr Informationen helfen.

Die Analogie: Stell dir vor, du musst einen Satz übersetzen. Wenn du nur das Wort „Bank" siehst, weißt du nicht, ob es ein Sitzmöbel oder ein Geldinstitut ist. Wenn du aber den ganzen vorherigen Satz siehst („Wir setzen uns auf die Bank"), weißt du Bescheid.
Das Ergebnis: Wenn die KI den englischen Text mit ein paar vorherigen Sätzen (Kontext) bekam, wurde sie etwas besser. Sie verstand den Sinn besser und wählte öfter die menschliche Variante. Aber selbst mit viel Kontext blieb sie oft noch zu sehr beim wörtlichen Übersetzen hängen.

5. Warum ist das wichtig?

Die Studie zeigt uns, dass KI-Modelle, die wir heute nutzen, oft noch wie Schüler sind, die eine Sprache nur aus Lehrbüchern gelernt haben, aber nie mit Einheimischen gesprochen haben. Sie kennen die Regeln, aber nicht den „Slang", die Gefühle oder die natürlichen Redewendungen.

Das Ziel: Die Forscher wollen mit diesem Datensatz helfen, KIs zu trainieren, die nicht nur „richtig", sondern auch natürlich und lebendig klingen. Sie wollen KIs, die schwedisch sprechen wie ein Schwede, nicht wie ein Engländer, der schwedisch lernt.

Zusammenfassung in einem Satz

Die Studie hat ein neues Werkzeug gebaut, um zu beweisen, dass KI-Übersetzer oft noch zu sehr „Wort-für-Wort" denken und dabei den natürlichen Fluss der Sprache verlieren – ähnlich wie ein Tourist, der eine Phrasebuch-Übersetzung benutzt, statt sich wie ein Einheimischer zu verhalten.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „A Dataset for Probing Translationese Preferences in English-to-Swedish Translation" auf Deutsch:

1. Problemstellung

Übersetzungen weisen oft Merkmale der Ausgangssprache auf, ein Phänomen, das als Translationese (Übersetzungsdeutsch/-schwedisch) bekannt ist. Dies äußert sich in vereinfachter Sprache, reduzierter lexikalischer und morphologischer Vielfalt sowie einer zu wörtlichen Übersetzungsweise, die sich von idiomatischen, natürlich klingenden Texten unterscheidet.
Obwohl Large Language Models (LLMs) im Vergleich zu spezialisierten neuronalen Maschinenübersetzungssystemen (NMT) eine höhere lexikalische Diversität aufweisen, zeigen Studien, dass sie dennoch oft noch Translationese produzieren und sich von menschlichen Texten unterscheiden lassen. Ein zentrales Problem ist, dass viele Trainingsdaten für LLMs (auch für nicht-englische Sprachen) bereits maschinell übersetzte Texte enthalten, was zu einer Verzerrung (Bias) hin zu wörtlichen Übersetzungen führt. Bisher fehlte jedoch ein frei verfügbares, manuell annotiertes Datenset, das Translationese systematisch mit idiomatischen Alternativen für das Schwedische kontrastiert, um die intrinsischen Präferenzen von Modellen zu untersuchen.

2. Methodik und Datensatzkonstruktion

Die Autoren stellen einen neuen Datensatz vor, der aus 600 Sätzen aus dem englischen Teil von OpenSubtitles (gesprochene Dialoge) besteht.

Generierung der Daten:
- Die Sätze wurden mit OPUS-MT (ein klassisches NMT-System) und GPT-5 (ein modernes LLM) ins Schwedische übersetzt.
- Für jeden Satz wurde eine menschliche, idiomatische Alternative von Muttersprachlern erstellt.
- Zusätzlich wurde der englische Quelltext sowie der vorangehende Kontext (bis zu 10 Sätze) bereitgestellt.
Annotation:
- Zwei annotierende Studenten (Muttersprachler) haben die Übersetzungen analysiert.
- Es wurde ein benutzerdefiniertes Fehler-Tagsystem entwickelt (basierend auf, aber feiner abgestimmt als das MQM-Framework), um spezifische Probleme zu kategorisieren.
- Fehlerkategorien:
  - Hauptfehler: Grammatik (GR), Fehlende Teile (SAK), Falsche Wortwahl (LF), Bedeutungsverlust (BET).
  - Nebenfehler: Semantische Verschiebung (SEM), Lexikalische Präferenz (PR – unnatürliche Wortwahl).
  - Deskriptive Tags: Idiom (ID), Slang (SL), Domänenspezifisch (ST), Direkte Übersetzung (DIR).
Experimentelles Setup:
- Es wurden Minimalpaare (Translationese vs. Idiomatisch) verwendet, um die Präferenzen von Modellen zu testen.
- Prompting-Strategien:
  1. Ohne Übersetzungskontext: Das Modell erhält nur den schwedischen Satz.
  2. Mit Übersetzungskontext: Das Modell erhält die englische Quelle und die Anweisung zu übersetzen (mit variierender Kontextlänge von 0 bis 10 vorangehenden Sätzen).
- Evaluierte Modelle: Verschiedene LLMs (LLaMA-3, EuroLLM, Gemma) in unterschiedlichen Größen (von 270M bis 12B Parametern) und Varianten (Base vs. Instruction-Tuned).
- Metriken: Accuracy (wie oft das menschliche Modell bevorzugt wird) und $\Delta$ LP (durchschnittliche relative Differenz der Log-Wahrscheinlichkeiten).

3. Wichtige Beiträge

Erster frei verfügbarer Datensatz: Dies ist das erste offen lizenzierte Datenset, das Translationese im Englisch-Schwedisch-Kontext explizit mit idiomatischen Alternativen kontrastiert und Fehler detailliert annotiert.
Feingranulare Analyse: Der Datensatz bietet nicht nur Paare, sondern auch Erklärungen zu den Problemen und spezifische Tags für Fehlerursachen (z. B. Idiomatik, Slang, Domänensprache).
Vergleich NMT vs. LLM: Die Analyse zeigt, dass GPT-5 zwar weniger Fehler als OPUS-MT macht (besonders bei lexikalischen Präferenzen und fehlenden Wörtern), aber dennoch oft idiomatisch unangemessene Übersetzungen liefert.
Benchmark für Präferenztests: Das Datenset dient als Benchmark, um zu messen, inwieweit Modelle zu wörtlichen Übersetzungen neigen, selbst wenn idiomatischere Alternativen verfügbar sind.

4. Ergebnisse

Die Experimente mit kleineren multilingualen LLMs ergaben folgende zentrale Erkenntnisse:

Starker Bias zu Translationese: Die meisten Modelle bevorzugen konsistent die maschinell übersetzten (Translationese) Varianten gegenüber den menschlichen Alternativen, selbst wenn die Fehler offensichtlich sind.
Einfluss des Quelltextes: Wenn der englische Quelltext im Prompt enthalten ist (Übersetzungskontext), neigen Modelle stark zu wörtlichen Übersetzungen. Wird der Quelltext weggelassen (nur der schwedische Satz), wählen Modelle häufiger die idiomatische menschliche Alternative. Dies deutet darauf hin, dass die Exposition gegenüber der Quelle den Bias verstärkt.
Kontextlänge: Eine längere Kontextlänge (bis zu 10 Sätze) hilft den Modellen, die Intention besser zu verstehen und die idiomatische Variante öfter zu wählen, beseitigt den Bias jedoch nicht vollständig.
Modellgröße: Größere Modelle zeigen bei der Auswahl der menschlichen Alternative (gegenüber OPUS) tendenziell bessere Ergebnisse. Bei der Gegenüberstellung mit GPT-5-Übersetzungen ist das Bild jedoch gemischt; größere Modelle bevorzugen GPT-5-Outputs manchmal sogar stärker, was auf eine Ähnlichkeit in den Trainingsdaten oder Stilen hindeutet.
Fehlertypen:
- Modelle haben große Schwierigkeiten mit Idiomen (ID), Slang (SL) und direkten Übersetzungen (DIR), besonders wenn Kontext gegeben ist (hier steigt die Präferenz für Translationese stark an).
- Offensichtliche Fehler wie Grammatik (GR) oder fehlende Wörter (SAK) werden von den Modellen besser erkannt und vermieden.
- Subtile Fehler wie semantische Verschiebungen (SEM) und lexikalische Präferenzen (PR) bleiben eine Herausforderung.

5. Bedeutung und Fazit

Das Paper liefert ein kritisches Werkzeug zur Untersuchung der „Übersetzungs-Natur" von LLMs. Die Ergebnisse zeigen, dass aktuelle Modelle, auch wenn sie leistungsfähiger sind als frühere NMT-Systeme, immer noch stark von wörtlichen Übersetzungen geprägt sind und Schwierigkeiten haben, idiomatische Nuancen in nicht-englischen Sprachen (hier Schwedisch) zu erfassen.

Die Studie unterstreicht, dass das bloße Vergrößern von Modellen oder das Hinzufügen von Kontext nicht ausreicht, um Translationese vollständig zu eliminieren. Der Datensatz bietet eine Basis für die Entwicklung von Techniken (z. B. Feinabstimmung oder Polishing-Schritte), die Modelle dazu bringen, natürlichere, idiomatischere Outputs zu generieren, was für den Einsatz von LLMs in nicht-englischen Sprachen essenziell ist. Die Autoren betonen zudem die Notwendigkeit, Trainingsdaten kritisch zu prüfen, da diese oft selbst Translationese enthalten, was den Bias der Modelle perpetuiert.

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

1. Das Problem: Die „Übersetzungs-Spuren" (Translationese)

2. Der neue Test: Das „Geschmacks-Panel"

3. Die Ergebnisse: Die KI mag es zu „wörtlich"

4. Der Kontext: Mehr Hintergrund hilft (ein bisschen)

5. Warum ist das wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik und Datensatzkonstruktion

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models