Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning
本論文は、大規模言語モデルの微調整における安全性の逸脱を防ぐため、有害なデータが含まれていなくても安全性に関連する少数のトークンに対するモデルの確信度を参照モデルと一致させるように制約をかける新たなフレームワーク「PACT」を提案し、タスク適応性を損なうことなく安全性を維持することを目的としています。