Optimizing Language Models for Crosslingual Knowledge Consistency
Dit paper introduceert Direct Consistency Optimization (DCO), een efficiënte methode die taalmodellen optimaliseert voor consistente kennisoverdracht tussen talen door middel van versterkingslearning, zonder dat een expliciet beloningsmodel nodig is.