Optimizing Language Models for Crosslingual Knowledge Consistency
Cet article présente la Direct Consistency Optimization (DCO), une méthode efficace inspirée de DPO qui améliore la cohérence des connaissances des grands modèles de langage multilingues en utilisant un apprentissage par renforcement sans modèle de récompense explicite.