Optimizing Language Models for Crosslingual Knowledge Consistency
Il paper introduce la Direct Consistency Optimization (DCO), un metodo basato sul reinforcement learning che migliora significativamente la coerenza delle conoscenze nei modelli linguistici multilingue senza richiedere un modello di ricompensa esplicito.