A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Each language version is independently generated for its own context, not a direct translation.

Imagina que la traducción automática es como un chef novato que acaba de aprender a cocinar un plato extranjero. El chef sabe los ingredientes (las palabras) y sigue la receta paso a paso, pero el resultado final... ¡sabe un poco extraño! No es que esté envenenado, pero le falta ese toque casero, esa "sazón" que hace que la comida se sienta como si la hubiera preparado alguien que vive en ese país.

En el mundo de las traducciones, a este sabor "extraño" le llamamos "translationese" (o "traducto-ese"). Es cuando un texto traducido suena demasiado literal, como si el traductor estuviera pegando las palabras del idioma original una por una, sin entender la cultura o la forma natural de hablar.

Aquí te explico qué hicieron los autores de este paper, usando analogías sencillas:

1. El Problema: El Chef que sigue la receta al pie de la letra

Los investigadores notaron que, aunque las Inteligencias Artificiales (IA) modernas son muy inteligentes, a menudo actúan como ese chef novato. Cuando traducen del inglés al sueco, tienden a usar frases que suenan "rígidas" o extrañas para un sueco nativo.

La analogía: Imagina que un sueco dice: "¡Qué día tan hermoso!" (algo natural). Pero la IA, siguiendo la receta del inglés, dice: "¡Qué día tan hermoso es!" (como si le faltara un poco de fluidez). O peor aún, traduce un chiste palabra por palabra y pierde todo el humor.

2. La Solución: Creando un "Gimnasio" para la IA

Para arreglar esto, los autores crearon un dataset (un conjunto de datos) especial. Es como un gimnasio de entrenamiento diseñado específicamente para enseñar a las IAs a hablar de forma más natural.

¿Qué contiene este gimnasio?
- El "Ejercicio": Una frase traducida por una máquina (que suena rara).
- La "Meta": Una frase traducida por un humano (que suena natural y fluida).
- La "Guía del Entrenador": Etiquetas que explican por qué la versión de la máquina está mal (¿fue un error gramatical? ¿Fue una mala elección de palabras? ¿Tradujo un chiste literalmente?).

Este es el primer conjunto de datos gratuito que hace esto específicamente para el sueco.

3. El Experimento: ¿Quién gana, el Chef o el Nativo?

Los autores pusieron a prueba varias IAs (desde modelos pequeños hasta gigantes) en este gimnasio. Les mostraron la frase rara y la frase natural, y les preguntaron: "¿Cuál de las dos suena mejor?".

Los resultados fueron reveladores:

El sesgo de la receta: La mayoría de las IAs, incluso las más avanzadas, prefirieron la versión "rara" (traducción literal) de la máquina. ¡Les gustó más la versión que sonaba como un robot!
El truco del contexto: Cuando les mostraron la frase original en inglés, las IAs se volvieron aún más rígidas. Era como si el chef, al ver la receta original, tuviera miedo de desviarse y se atreviera menos a cocinar con "sazón".
La buena noticia: Cuando les mostraron solo la frase sueca (sin la receta en inglés), las IAs a veces acertaban y elegían la versión humana. Esto sugiere que si les quitamos la "receta" de encima, pueden pensar más libremente.
El tamaño importa: Los modelos más grandes y entrenados con más contexto (más frases anteriores) empezaron a entender mejor cuándo debían sonar naturales, pero aún tenían una preferencia fuerte por la traducción literal.

4. ¿Por qué es importante esto?

Imagina que quieres aprender sueco usando una IA. Si la IA siempre te enseña frases que suenan como "traducciones de libro de texto", nunca aprenderás a hablar como un local.

Este estudio nos dice que:

Las IAs tienen un "vicio": Tienen una preferencia automática por sonar literales.
Necesitamos entrenarlas mejor: No basta con que la IA sepa traducir; tiene que saber cómo suena natural.
El sueco es especial: Las reglas para sonar natural en sueco son diferentes a las del inglés (por ejemplo, cómo usar artículos o verbos), y las IAs a menudo olvidan estas sutilezas.

En resumen

Los autores crearon un libro de ejercicios para enseñar a las IAs a dejar de sonar como robots que traducen palabra por palabra y empezar a sonar como personas reales. Descubrieron que las IAs actuales son muy buenas siguiendo instrucciones, pero aún les cuesta mucho "soltarse" y hablar con la naturalidad y el estilo de un nativo sueco.

Es un paso crucial para que, en el futuro, cuando hables con una IA en sueco, no sientas que estás hablando con un turista que acaba de llegar, sino con un amigo que vive allí.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Resumen Técnico: Un Conjunto de Datos para Probar Preferencias de "Translationese" en la Traducción Inglés-Sueco

1. El Problema

El fenómeno conocido como "translationese" (o "traductés") se refiere a la tendencia de los textos traducidos a conservar características de la lengua fuente, diferenciándose estilísticamente de los textos originalmente escritos en la lengua meta. En el contexto de la Traducción Automática (TA) y los Modelos de Lenguaje Grandes (LLM), esto resulta en un lenguaje simplificado, con menor riqueza léxica y morfológica, y a menudo literal.
Aunque los LLMs modernos muestran mayor diversidad léxica que los sistemas de TA especializados, sus salidas siguen siendo distinguibles de textos humanos y a menudo favorecen traducciones literales en lugar de expresiones idiomáticas naturales. Esto es crítico porque una gran parte de los datos de entrenamiento de los LLMs provienen de corpus web que incluyen traducciones, perpetuando el sesgo hacia el "translationese". El artículo aborda la falta de recursos para evaluar y mitigar este sesgo específicamente en el sueco.

2. Metodología

Los autores proponen una metodología basada en la creación de un nuevo conjunto de datos y su uso para evaluar modelos mediante pares mínimos.

Construcción del Conjunto de Datos:
- Fuente: 600 oraciones extraídas de la parte en inglés de OpenSubtitles (diálogo hablado).
- Traducciones Comparadas:
  1. OPUS-MT: Un sistema de TA neuronal especializado (no basado en LLM) que representa un caso clásico de "translationese".
  2. GPT-5: Un LLM de última generación (OpenAI, 2025) utilizado como referencia de estado del arte.
  3. Traducción Humana: Generada por anotadores nativos suecos como la alternativa idiomática ideal.
- Annotación: Se desarrolló un sistema de etiquetado de errores personalizado (más granular que MQM para este propósito) que incluye:
  - Errores mayores: Gramática (GR), Omisión (SAK), Palabra incorrecta (LF), Pérdida de significado (BET).
  - Errores menores: Preferencia léxica (PR), Desviación semántica (SEM).
  - Etiquetas descriptivas: Idiomatismo (ID), Jerga (SL), Estilo/Domain (ST), Traducción directa (DIR).
- Contexto: Cada entrada incluye la oración fuente en inglés, el contexto previo (hasta 10 oraciones) y la traducción al sueco.
Experimentos de Evaluación:
- Modelos Evaluados: Se probaron varios LLMs multilingües de diferentes escalas y familias: LLaMA-3 (8B y versión adaptada al sueco), EuroLLM (1.7B y 9B) y Gemma (270M, 1B, 4B, 12B).
- Configuraciones de Prompt:
  1. Sin contexto de traducción: El modelo recibe solo la oración sueca para evaluar su preferencia intrínseca.
  2. Con contexto de traducción: Se instruye al modelo para traducir el inglés al sueco, variando la cantidad de contexto previo (0 a 10 oraciones).
- Métricas: Se utiliza la probabilidad logarítmica media normalizada por longitud (MeanLP) para calcular la precisión (frecuencia de elección de la opción humana) y la diferencia relativa de probabilidad ( $\Delta$ LP).

3. Contribuciones Clave

Primer Dataset Abierto: Presentan el primer conjunto de datos disponible gratuitamente que contrasta explícitamente el "translationese" con alternativas idiomáticas para el sueco.
Análisis Granular: Proporcionan etiquetas detalladas que permiten no solo detectar errores, sino categorizar sus causas (ej. traducción literal de modismos, jerga, errores gramaticales).
Benchmark de Preferencias: Establecen un estándar para medir el sesgo intrínseco de los modelos hacia el lenguaje de traducción literal frente al natural.
Análisis Comparativo: Ofrecen una comparación detallada entre sistemas de TA tradicionales (OPUS-MT) y LLMs modernos (GPT-5), mostrando que, aunque los LLMs mejoran, no resuelven completamente el problema.

4. Resultados Principales

Sesgo hacia el Translationese: Todos los modelos evaluados muestran una preferencia consistente por las frases de "translationese" (OPUS o GPT) sobre las alternativas humanas, incluso en modelos más grandes.
Efecto del Contexto de Traducción:
- Cuando se omite la oración fuente en inglés (configuración sin contexto de traducción), los modelos eligen la alternativa humana con mayor frecuencia. Esto sugiere que la exposición a la oración fuente sesga al modelo hacia una traducción literal.
- Sin embargo, incluso sin contexto, los modelos a menudo prefieren la variante de "translationese".
Impacto del Contexto Previo: Aumentar el contexto (número de oraciones previas en el prompt) ayuda a los modelos a reducir el sesgo hacia el "translationese" y favorece más la traducción humana, especialmente en configuraciones de 5 a 10 oraciones.
Desempeño por Tipo de Error:
- Los modelos fallan más en traducciones directas (DIR) y jerga (SL) cuando se les da contexto de traducción, lo que indica que el contexto puede reforzar la literalidad en lugar de la naturalidad.
- Los errores gramaticales claros (GR) y las omisiones (SAK) son más fáciles de evitar para los modelos que los errores sutiles de preferencia léxica (PR) o semántica (SEM).
Comparación OPUS vs. GPT: Las traducciones de GPT-5 son significativamente mejores y más idiomáticas que las de OPUS-MT, pero aún así, los modelos evaluados a menudo prefieren las traducciones de GPT sobre las humanas cuando se les da el contexto de traducción.

5. Significancia

Este trabajo es fundamental para el avance de la traducción automática y el procesamiento del lenguaje natural en idiomas no anglosajones:

Recurso Crítico: Proporciona una herramienta esencial para investigar cómo los LLMs internalizan y reproducen el "translationese".
Dirección para el Desarrollo: Los hallazgos indican que simplemente aumentar el tamaño del modelo no elimina el sesgo hacia la literalidad; se requieren estrategias específicas de entrenamiento o ajuste (fine-tuning) que prioricen la naturalidad sobre la fidelidad literal a la fuente.
Implicaciones para la Evaluación: Sugiere que las evaluaciones de TA que incluyen la oración fuente pueden estar penalizando injustamente a las traducciones más naturales si el modelo está sesgado hacia la literalidad.
Futuro: El dataset y los hallazgos sirven como base para desarrollar modelos que generen salidas más naturales y culturalmente apropiadas en idiomas como el sueco, reduciendo la dependencia de corpus de entrenamiento contaminados por traducciones literales.

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

1. El Problema: El Chef que sigue la receta al pie de la letra

2. La Solución: Creando un "Gimnasio" para la IA

3. El Experimento: ¿Quién gana, el Chef o el Nativo?

4. ¿Por qué es importante esto?

En resumen

Resumen Técnico: Un Conjunto de Datos para Probar Preferencias de "Translationese" en la Traducción Inglés-Sueco

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significancia

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models