Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems
この論文は、LLM の安全性調整(アライメント)が英語では機能するものの、日本語など他の言語では逆効果となり、集団的な病理や内面的な乖離を悪化させる「アライメントの逆転現象」を16言語にわたる多エージェントシミュレーションで実証し、言語空間の特性が安全性の成否を決定づけることを明らかにしています。