Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems
Cette étude démontre que les interventions d'alignement sur les grands modèles de langage, bien qu'efficaces en anglais, provoquent un « contre-coup d'alignement » dans d'autres langues comme le japonais, où elles exacerbent la pathologie collective et la dissociation interne en raison de contraintes culturelles et linguistiques inhérentes aux données d'entraînement.