A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek, vertaald naar gewoon Nederlands, met behulp van wat creatieve vergelijkingen.

Het Probleem: De "Reisgids" vs. De "Lokale Inwoner"

Stel je voor dat je een boek leest dat is vertaald uit het Engels naar het Zweeds. Vaak voelt het alsof de schrijver nog steeds met een Engels accent praat. De zinnen zijn grammaticaal correct, maar ze klinken stijf, onnatuurlijk en een beetje als een reiskoffer die net is uitgepakt. Taalkundigen noemen dit translationese (of "vertaal-taal"). Het is alsof iemand een tekst letterlijk overneemt, woord voor woord, zonder te denken aan hoe een echte Zweed dat zou zeggen.

De auteurs van dit paper (Jenny Kunz en haar team) zeggen: "Dit is een probleem, vooral voor de nieuwe, slimme AI-modellen (zoals ChatGPT)." Zelfs als die AI's heel goed zijn, maken ze vaak dezelfde fout: ze vertalen te letterlijk.

De Oplossing: Een "Spiegel" voor AI

Om dit te onderzoeken, hebben de onderzoekers een speciaal speelgoed (een dataset) gemaakt.
Stel je dit voor als een spiegel met twee kanten:

Kant A (De AI): Een zin die door een computer is vertaald (de stijve, letterlijke versie).
Kant B (De Mens): Dezelfde zin, maar vertaald door een native speaker (de natuurlijke, vloeiende versie).

Ze hebben 600 van deze zinnen verzameld uit films en series (OpenSubtitles). Voor elke zin hebben ze ook een "diagnose" gemaakt: Waarom klinkt de AI-versie raar? Is het een foutje in de grammatica? Is het een spreekwoord dat verkeerd is vertaald? Of klinkt het gewoon alsof iemand een woordenboek heeft opengeslagen?

Het Experiment: Wat kiest de AI?

Vervolgens hebben ze verschillende AI-modellen (van klein tot groot) voor deze spiegel gezet. Ze vroegen de AI: "Welke van deze twee zinnen klinkt het meest als een echte Zweed?"

De verrassende bevindingen:

De AI houdt van de "Reisgids": De meeste AI's kozen vaker de stijve, letterlijke vertaling (Kant A) dan de natuurlijke menselijke versie (Kant B). Het is alsof de AI denkt: "Dit klinkt veilig en precies zoals in het origineel, dus dit moet goed zijn."
De bron maakt uit: Als je de AI de Engelse originele zin laat zien, kiest hij nog sneller voor de stijve vertaling. Het is alsof de AI de Engelse zin als een "recept" ziet en denkt: "Ik moet dit exact volgen." Als je de Engelse zin weglaat en alleen de Zweedse zinnen laat zien, kiezen de AI's iets vaker voor de menselijke versie.
Context helpt (maar niet genoeg): Als je de AI meer context geeft (bijvoorbeeld de vorige zinnen uit het gesprek), wordt hij iets beter. Maar zelfs dan blijft hij vaak hangen in de stijve vertaling.

Waarom is dit belangrijk?

Stel je voor dat je een robot hebt die Zweeds leert. Als je die robot alleen maar vertaalde teksten laat zien, zal hij denken dat Zweeds klinkt als een vertaling. Hij zal nooit leren hoe mensen écht praten, met hun slang, hun spreekwoorden en hun gevoel.

De onderzoekers zeggen: "We moeten AI's trainen om niet alleen 'correct' te zijn, maar ook 'natuurlijk'."

De Analogie: De Chef-kok

Laten we het vergelijken met koken:

De AI is een robot-chef die een Engels recept volgt. Als het recept zegt "voeg een beetje zout toe", doet de robot dat. Maar als het recept zegt "voeg een snufje liefde toe", probeert de robot misschien een flesje liefde te kopen. Het resultaat is technisch correct, maar het smaakt niet goed.
De Menselijke vertaler is een chef die weet dat je in Zweden geen "liefde" toevoegt, maar misschien een beetje dille of een specifieke saus.
Dit onderzoek is een proefkeuken waar ze de robot-chef laten zien: "Kijk, dit gerecht smaakt als plastic (de AI-versie), en dit smaakt als thuis (de mens-versie). Leer het verschil!"

Conclusie

De onderzoekers hebben een gratis "speelgoed" gemaakt voor iedereen die AI's wil verbeteren. Ze tonen aan dat AI's momenteel nog te veel vastzitten in de letterlijke vertaling. Om echt goede, natuurlijke Zweedse teksten te krijgen, moeten we AI's leren om niet alleen naar de woorden te kijken, maar ook naar de sfeer en de cultuur erachter.

Kortom: AI's zijn slim, maar ze zijn nog steeds een beetje stijf. Ze moeten leren om niet alleen te vertalen, maar om te 'voelen' hoe een taal klinkt.

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Het Probleem: De "Reisgids" vs. De "Lokale Inwoner"

De Oplossing: Een "Spiegel" voor AI

Het Experiment: Wat kiest de AI?

Waarom is dit belangrijk?

De Analogie: De Chef-kok

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Het Probleem: De "Reisgids" vs. De "Lokale Inwoner"

De Oplossing: Een "Spiegel" voor AI

Het Experiment: Wat kiest de AI?

Waarom is dit belangrijk?

De Analogie: De Chef-kok

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models