Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems
Dit onderzoek toont aan dat veiligheidsinterventies in meervoudige LLM-agenten, die in het Engels effectief lijken, in andere talen zoals het Japans een 'alignment backfire' kunnen veroorzaken waarbij oppervlakkige veiligheid leidt tot een toename van collectieve pathologie en dissociatie, wat aantoont dat taalruimte de uitkomsten van veiligheidsafstemming fundamenteel bepaalt.