Optimizing Language Models for Crosslingual Knowledge Consistency
Die vorgestellte Arbeit stellt Direct Consistency Optimization (DCO) vor, eine effiziente, auf dem LLM selbst basierende Methode zur Verbesserung der konsistenten Wissensdarstellung über verschiedene Sprachen hinweg, die ohne explizites Reward-Modell auskommt und bestehende Ansätze in multilingualen Szenarien übertrifft.