A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Este artículo presenta el primer conjunto de datos gratuito en inglés-sueco que contrasta el "translationese" con alternativas idiomáticas, revelando que los modelos de lenguaje tienden a preferir traducciones literales influenciadas por el texto fuente, lo que ofrece un recurso clave para desarrollar modelos que generen salidas más naturales en idiomas distintos al inglés.

Jenny Kunz, Anja Jarochenko, Marcel Bollmann

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que la traducción automática es como un chef novato que acaba de aprender a cocinar un plato extranjero. El chef sabe los ingredientes (las palabras) y sigue la receta paso a paso, pero el resultado final... ¡sabe un poco extraño! No es que esté envenenado, pero le falta ese toque casero, esa "sazón" que hace que la comida se sienta como si la hubiera preparado alguien que vive en ese país.

En el mundo de las traducciones, a este sabor "extraño" le llamamos "translationese" (o "traducto-ese"). Es cuando un texto traducido suena demasiado literal, como si el traductor estuviera pegando las palabras del idioma original una por una, sin entender la cultura o la forma natural de hablar.

Aquí te explico qué hicieron los autores de este paper, usando analogías sencillas:

1. El Problema: El Chef que sigue la receta al pie de la letra

Los investigadores notaron que, aunque las Inteligencias Artificiales (IA) modernas son muy inteligentes, a menudo actúan como ese chef novato. Cuando traducen del inglés al sueco, tienden a usar frases que suenan "rígidas" o extrañas para un sueco nativo.

  • La analogía: Imagina que un sueco dice: "¡Qué día tan hermoso!" (algo natural). Pero la IA, siguiendo la receta del inglés, dice: "¡Qué día tan hermoso es!" (como si le faltara un poco de fluidez). O peor aún, traduce un chiste palabra por palabra y pierde todo el humor.

2. La Solución: Creando un "Gimnasio" para la IA

Para arreglar esto, los autores crearon un dataset (un conjunto de datos) especial. Es como un gimnasio de entrenamiento diseñado específicamente para enseñar a las IAs a hablar de forma más natural.

  • ¿Qué contiene este gimnasio?
    • El "Ejercicio": Una frase traducida por una máquina (que suena rara).
    • La "Meta": Una frase traducida por un humano (que suena natural y fluida).
    • La "Guía del Entrenador": Etiquetas que explican por qué la versión de la máquina está mal (¿fue un error gramatical? ¿Fue una mala elección de palabras? ¿Tradujo un chiste literalmente?).

Este es el primer conjunto de datos gratuito que hace esto específicamente para el sueco.

3. El Experimento: ¿Quién gana, el Chef o el Nativo?

Los autores pusieron a prueba varias IAs (desde modelos pequeños hasta gigantes) en este gimnasio. Les mostraron la frase rara y la frase natural, y les preguntaron: "¿Cuál de las dos suena mejor?".

Los resultados fueron reveladores:

  • El sesgo de la receta: La mayoría de las IAs, incluso las más avanzadas, prefirieron la versión "rara" (traducción literal) de la máquina. ¡Les gustó más la versión que sonaba como un robot!
  • El truco del contexto: Cuando les mostraron la frase original en inglés, las IAs se volvieron aún más rígidas. Era como si el chef, al ver la receta original, tuviera miedo de desviarse y se atreviera menos a cocinar con "sazón".
  • La buena noticia: Cuando les mostraron solo la frase sueca (sin la receta en inglés), las IAs a veces acertaban y elegían la versión humana. Esto sugiere que si les quitamos la "receta" de encima, pueden pensar más libremente.
  • El tamaño importa: Los modelos más grandes y entrenados con más contexto (más frases anteriores) empezaron a entender mejor cuándo debían sonar naturales, pero aún tenían una preferencia fuerte por la traducción literal.

4. ¿Por qué es importante esto?

Imagina que quieres aprender sueco usando una IA. Si la IA siempre te enseña frases que suenan como "traducciones de libro de texto", nunca aprenderás a hablar como un local.

Este estudio nos dice que:

  1. Las IAs tienen un "vicio": Tienen una preferencia automática por sonar literales.
  2. Necesitamos entrenarlas mejor: No basta con que la IA sepa traducir; tiene que saber cómo suena natural.
  3. El sueco es especial: Las reglas para sonar natural en sueco son diferentes a las del inglés (por ejemplo, cómo usar artículos o verbos), y las IAs a menudo olvidan estas sutilezas.

En resumen

Los autores crearon un libro de ejercicios para enseñar a las IAs a dejar de sonar como robots que traducen palabra por palabra y empezar a sonar como personas reales. Descubrieron que las IAs actuales son muy buenas siguiendo instrucciones, pero aún les cuesta mucho "soltarse" y hablar con la naturalidad y el estilo de un nativo sueco.

Es un paso crucial para que, en el futuro, cuando hables con una IA en sueco, no sientas que estás hablando con un turista que acaba de llegar, sino con un amigo que vive allí.