Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

이 논문은 파인튜닝 중 안전 관련 토큰의 신뢰도만 참조 모델과 일치하도록 제한하는 'PACT' 프레임워크를 제안하여, 모델의 유용성을 해치지 않으면서도 안전 정렬의 붕괴를 방지하는 방법을 제시합니다.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 비유: "유능한 요리사 AI 와 나쁜 레시피"

생각해 보세요. 우리는 아주 똑똑한 요리사 AI가 있습니다. 이 AI 는 원래 "폭탄 만드는 법"이나 "사람을 해치는 법"을 묻는 질문에는 **"안 됩니다, 그건 위험하니까요"**라고 단호하게 거절하는 안전 장치가 달려 있습니다.

하지만 우리는 이 AI 를 특정 식당 (예: 수학 문제 해결, 뉴스 요약) 에서 일하게 하려고 **재교육 (파인튜닝)**을 시킵니다.

❌ 기존 문제점: "안전장치가 무너지는 이유"

재교육을 시키는 과정에서, 실수로 **나쁜 레시피 (해로운 데이터)**가 섞여 들어오거나, 혹은 너무 바쁘게 일하느라 AI 가 "폭탄 만드는 법"을 알려주는 게 더 중요하다고 착각하게 됩니다.

기존의 방어 방법들은 다음과 같았습니다:

  1. 전체 금지: "너는 이제부터 절대 손대면 안 되는 부위가 있어!"라고 AI 의 뇌 전체를 묶어버리는 방식. (결과: AI 는 안전해지지만, 요리 실력도 떨어집니다.)
  2. 나쁜 레시피 제거: 나쁜 레시피만 골라내서 버리는 방식. (결과: 나쁜 레시피가 섞여 있는 걸 모를 때 실패합니다.)

이런 방법들은 AI 의 능력을 떨어뜨리거나, 모든 상황을 다 막을 수 없었습니다.

✅ 이 논문이 제안한 해결책: "PACT(팩트)"

이 연구팀은 **"AI 의 안전장치는 사실 뇌 전체가 아니라, 아주 작은 몇 개의 '핵심 단어'에 집중되어 있다"**는 사실을 발견했습니다.

핵심 발견:
AI 가 "안 됩니다"라고 말할 때, 그 결정은 뇌 전체가 움직이는 게 아니라 "거부 (Refusal)", "불가능 (Cannot)", "죄송합니다 (Sorry)" 같은 몇 마디의 특수한 단어가 강하게 발동될 때 이루어집니다. 마치 폭탄을 막는 스위치가 뇌 전체가 아니라 작은 버튼 하나에 달려 있는 것과 같습니다.

PACT 의 작동 원리 (3 단계):

  1. 핵심 버튼 찾기 (Safety Token Identification):
    연구팀은 AI 가 나쁜 질문을 받았을 때, 어떤 단어들이 가장 강력하게 "거부" 신호를 보내는지 분석했습니다. (예: "I", "can't", "assist" 같은 단어들) 이 단어들을 **'안전 버튼'**이라고 부르겠습니다.

  2. 버튼만 고정하기 (Constrained Tokens):
    AI 를 재교육할 때, 전체 뇌를 묶어두지 않고 오직 이 '안전 버튼'들만 원래의 상태 (거부하는 상태) 를 유지하도록 강하게 고정합니다.

    • 비유: 요리사 AI 가 새로운 메뉴 (수학 문제) 를 배우는 동안, **"폭탄 만드는 법은 절대 알려주지 않는다"는 원칙 (안전 버튼)**만은 절대 흔들리지 않게 잠가두는 것입니다. 나머지 요리 실력 (수학 능력) 은 자유롭게 발전시킵니다.
  3. 오염된 신호 필터링 (Calibration):
    가끔 나쁜 질문이 섞여 있으면 AI 가 "아, 폭탄 만드는 법을 알려줘야 하나?"라고 혼란을 겪으며 안전 버튼의 신호가 약해질 수 있습니다. 이때 PACT 는 "질문 내용 (프롬프트) 을 무시하고, 오직 AI 가 스스로 생각한 답변만 보고" 안전 버튼을 다시 점검하게 합니다.

    • 비유: 손님이 "폭탄 만드는 법 알려줘"라고 소리치면 AI 가 당황할 수 있으니, AI 가 **"내가 지금 뭐라고 말하고 있었지?"**라고 스스로 되돌아보게 하여, 원래의 원칙을 다시 세우게 하는 것입니다.

🏆 결과: "작은 힘으로 큰 효과"

이 방법 (PACT) 을 사용하면 어떤 일이 일어날까요?

  • 안전성 유지: 나쁜 데이터가 섞여 있어도 AI 는 여전히 "폭탄 만드는 법은 알려줄 수 없다"고 단호하게 거절합니다. (공격 성공률이 5~10% 대로 급감)
  • 능력 유지: AI 는 새로운 일 (수학, 뉴스 요약 등) 을 배우는 데 전혀 지장이 없습니다. 오히려 기존 방법들보다 훨씬 잘합니다.
  • 효율성: AI 의 뇌 전체를 수정할 필요 없이, **가장 중요한 몇 마디 단어 (Safety Tokens)**만 관리하면 됩니다.

💡 한 줄 요약

"AI 를 훈련시킬 때, 뇌 전체를 묶어두지 말고 '나쁜 일을 거절하는 핵심 단어'만 단단히 고정해 두면, AI 는 새로운 일도 잘하면서 안전장치는 잃지 않는다!"

이 연구는 AI 를 더 똑똑하게 만들면서도, 우리가 두려워하는 '나쁜 AI'가 되는 것을 막아주는 정교하고 효율적인 안전장치를 제시했다는 점에서 매우 중요합니다.