Optimizing Language Models for Crosslingual Knowledge Consistency
Este trabalho apresenta a Otimização Direta de Consistência (DCO), um método eficiente inspirado no DPO que utiliza aprendizado por reforço para melhorar significativamente a consistência do conhecimento em modelos de linguagem multilíngue sem a necessidade de um modelo de recompensa explícito.