Activation Steering for Masked Diffusion Language Models
이 논문은 마스킹 확산 언어 모델 (MDLM) 에서 최적화나 샘플링 절차 변경 없이 단일 저차원 방향을 추출하여 역확산 과정 전체에 적용함으로써 안전 거부 등 행동을 효과적으로 제어하는 새로운 활성화 조향 기법을 제안하고, 이 방향이 아크로레지브 모델과 달리 사전 지시 토큰에서도 유효하며 언어 간 전이성이 높지만 아키텍처 간에는 일반화되지 않음을 규명합니다.