Optimizing Language Models for Crosslingual Knowledge Consistency

Este trabajo presenta Direct Consistency Optimization (DCO), un método eficiente inspirado en DPO que mejora significativamente la consistencia del conocimiento en modelos de lenguaje multilingüe mediante optimización directa sin necesidad de un modelo de recompensa explícito.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan, Ryan Cotterell, Raquel Fernández, Arianna Bisazza

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un genio muy inteligente (un modelo de lenguaje grande) que vive en una casa con muchas habitaciones. Cada habitación está decorada en un idioma diferente: una en español, otra en chino, otra en árabe, etc.

El problema es que, aunque el genio es muy listo, a veces se olvida de quién es cuando cambia de habitación.

El Problema: El Genio Confundido

Si le preguntas al genio en español: "¿Cuál es la capital de los Países Bajos?", te responde con confianza: "Ámsterdam".
Pero si le haces la misma pregunta en chino, en lugar de repetir "Ámsterdam", de repente te dice: "Rotterdam".

¡Esto es un desastre! Es como si tu amigo te dijera que su perro se llama "Firulais" en inglés, pero "Mochi" en francés. No confías en él porque sus respuestas no son consistentes. Esto pasa porque el genio ha aprendido las respuestas de cada idioma por separado, como si fueran memorias aisladas, y no ha unificado su conocimiento.

La Solución: DCO (Optimización Directa de Coherencia)

Los autores de este paper, Tianyu Liu y su equipo, han creado una nueva forma de entrenar a este genio para que deje de ser confuso. Llamaron a su método DCO (Optimización Directa de Coherencia).

Aquí está la analogía de cómo funciona:

1. El Espejo Mágico (La Recompensa)

Imagina que tienes un espejo mágico que conecta dos habitaciones (por ejemplo, la de español y la de inglés).

  • Cuando el genio responde en español, el espejo le susurra al oído: "Oye, ¿qué responderías si te preguntaran esto en inglés?".
  • Si el genio dice "Ámsterdam" en español y el espejo le recuerda que en inglés también dijo "Ámsterdam", el espejo le da una palmadita en la espalda (una recompensa).
  • Si dice "Ámsterdam" en español pero el espejo le recuerda que en inglés dijo "Rotterdam", el espejo le da un pequeño empujón para que corrija su respuesta y se alinee con la otra habitación.

2. El Entrenamiento sin Maestros (Sin "Reward Model")

Antes, para arreglar esto, necesitabas un "maestro" externo que revisara cada respuesta y dijera: "Esto está bien, aquello está mal". Eso es lento y costoso.

El método DCO es como darle al genio un auto-entrenamiento. El genio se mira a sí mismo en el espejo y se corrige. No necesita un maestro externo porque usa su propia inteligencia para entender que, si sabe algo en un idioma, debe saberlo igual en el otro. Es como si el genio se dijera: "Espera, si yo sé que la capital es Ámsterdam en inglés, no tiene sentido que diga Rotterdam en español. ¡Mejor lo arreglo!".

3. El Equilibrio Perfecto (Los Botones de Control)

El método tiene unos botones de control (llamados parámetros γ\gamma) que permiten decidir quién manda en la conversación:

  • Modo "Estable en Inglés": Si el inglés es el idioma más fuerte y preciso, el sistema le dice al genio: "Mantén el inglés fijo como una roca y ajusta el español para que coincida con él". Esto es útil si quieres que el español aprenda de la calidad del inglés.
  • Modo "Equilibrado": Si ambos idiomas son buenos, el sistema hace que ambos se ajusten mutuamente hasta que estén perfectamente sincronizados.

¿Por qué es genial esto?

  1. Funciona en todos lados: No importa si comparas idiomas muy parecidos (como español e italiano) o muy diferentes (como chino y árabe). El genio aprende a ser consistente en todos.
  2. No pierde inteligencia: A veces, cuando corriges a alguien para que sea consistente, puede volverse un poco más tonto en otros aspectos. Pero con DCO, el genio no solo se vuelve más consistente, ¡sino que a veces responde mejor en los idiomas que antes le costaban más!
  3. Es rápido y barato: Como no necesita un "maestro" externo (un modelo de recompensa), es mucho más eficiente computacionalmente.

En Resumen

Este paper presenta una forma inteligente de enseñar a la Inteligencia Artificial a ser un solo experto, no varios expertos confundidos.

Imagina que antes tenías a un traductor que, al cambiar de idioma, cambiaba de personalidad y de hechos. Con DCO, ahora tienes a un único experto que, sin importar en qué idioma le hables, siempre te dará la misma respuesta precisa y confiable. Es como tener un amigo que, aunque hables con él en diferentes idiomas, siempre recuerda exactamente los mismos detalles de su vida.