Optimizing Language Models for Crosslingual Knowledge Consistency
Este trabajo presenta Direct Consistency Optimization (DCO), un método eficiente inspirado en DPO que mejora significativamente la consistencia del conocimiento en modelos de lenguaje multilingüe mediante optimización directa sin necesidad de un modelo de recompensa explícito.