In-Training Defenses against Emergent Misalignment in Language Models

本文首次系统研究了针对大语言模型微调过程中出现的“涌现性不对齐”现象的防御机制,通过评估四种训练正则化干预措施,发现利用对齐与不对齐模型之间的困惑度差距来筛选并混入通用指令微调数据,是防止模型在特定领域微调后产生广泛有害行为且保持任务性能的最佳方案。

David Kaczér, Magnus Jørgenvåg, Clemens Vetter + 4 more2026-03-06💻 cs