Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

이 논문은 사전 훈련된 언어 모델의 레이어 사이에 명시적인 안전 비트를 삽입하여 모델의 안전 판단을 해석 가능하고 제어 가능하게 만들며, 경량 미세 조정을 통해 공격 성공률을 극도로 낮추는 'Safe Transformer' 아키텍처를 제안합니다.

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 핵심 비유: "안전 스위치가 달린 무대 배우"

기존의 AI 안전 장치는 마치 배우가 무대 뒤에서 머릿속으로만 "이건 위험하니까 연기하지 말아야지"라고 생각하는 것과 같습니다. 관객 (사용자) 은 배우가 왜 갑자기 대사를 멈추는지, 혹은 왜 특정 대사를 하지 않는지 그 이유를 알 수 없습니다. 배우의 머릿속 (모델의 파라미터) 은 너무 복잡해서 누가 봐도 알 수 없기 때문이죠.

Safe Transformer는 이 문제를 해결하기 위해 배우의 가슴에 **눈에 보이는 '안전 스위치 (Safety Bit)'**를 직접 달아줍니다.

1. 안전 스위치 (The Safety Bit)

이 스위치는 두 가지 역할을 합니다.

  • 판단자 역할: AI 가 "이 질문은 위험해!"라고 판단하면 스위치가 **0(거절)**으로 켜집니다. "이 질문은 안전해!"라고 판단하면 **1(도움)**으로 켜집니다. 이 스위치는 우리가 직접 볼 수 있어, AI 가 왜 그 반응을 했는지 바로 알 수 있습니다.
  • 조종자 역할: 우리가 이 스위치를 손으로 직접 조작할 수도 있습니다. "오늘은 모든 질문에 거절해"라고 스위치를 0 으로 맞추면 AI 는 무조건 거절하고, 1 로 맞추면 도와줍니다.

2. 정보 병목 (Information Bottleneck) - "좁은 문"

AI 는 스위치뿐만 아니라 **답변을 작성할 내용 (의미)**도 전달해야 합니다. 이를 위해 '좁은 문 (병목)'을 통과시킵니다.

  • 스위치 (s): 안전 여부만 담습니다.
  • 나머지 문 (u): 실제 답변의 내용 (의미) 을 담습니다.

이 구조 덕분에 AI 는 **"안전한지 아닌지 (스위치)"**와 **"무엇을 말할지 (내용)"**를 완전히 분리해서 생각할 수 있게 됩니다. 마치 식당에서 "주문은 안전합니다 (스위치)"와 "메뉴는 스테이크입니다 (내용)"를 따로 관리하는 것과 비슷합니다.


🎓 어떻게 가르쳤을까요? (두 단계 훈련)

이 AI 를 가르치는 과정은 두 단계로 나뉩니다.

1 단계: 안전 판별 훈련 (선생님 역할)

  • AI 에게 "이 질문은 위험한가, 안전한가?"를 묻고 정답을 맞히게 합니다.
  • 이때 AI 는 안전 스위치를 올바르게 작동시키는 법을 배웁니다. (예: "폭탄 만드는 법"을 물어보면 스위치를 0 으로, "요리 레시피"를 물어보면 1 로 설정)

2 단계: 대조 훈련 (역할극)

  • 동일한 질문에 대해 두 가지 다른 반응을 가르칩니다.
    • 스위치 1일 때: "네, 요리 레시피 알려드릴게요!" (도움)
    • 스위치 0일 때: "죄송하지만 그 요청은 도와드릴 수 없습니다." (거절)
  • 중요한 점은 질문은 똑같지만, 스위치 값만 다르다는 것입니다.
  • 이 훈련을 통해 AI 는 "질문 내용 자체"와 "거절/도움이라는 행동"을 분리해서 이해하게 됩니다. 스위치만 바꾸면 행동이 바뀐다는 것을 깨닫는 거죠.

🛡️ 왜 이것이 중요한가요?

  1. 투명성 (Interpretability):

    • 기존 AI 는 "왜 거절했는지" 알려주지 않았습니다. 하지만 Safe Transformer 는 **스위치 값 (0 또는 1)**을 보여줍니다. "아, 스위치가 0 이라서 거절한 구나!"라고 바로 알 수 있습니다.
  2. 조절 가능성 (Controllability):

    • 만약 AI 가 너무 민감해서 안전한 질문까지 거절한다면, 우리는 스위치를 강제로 1 로 설정하여 "아니야, 이건 도와줘!"라고 명령할 수 있습니다. 반대로 모든 것을 막고 싶다면 0 으로 설정하면 됩니다.
  3. 강력한 방어 (Red-Teaming):

    • 실험 결과, 해커들이 AI 를 속여서 위험한 일을 하도록 유도하는 공격 (재일브랙) 에 대해 거의 0% 에 가까운 성공률을 보였습니다. 기존 AI 들은 이런 공격에 쉽게 넘어갔지만, Safe Transformer 는 스위치 논리가 너무 명확해서 속임수가 통하지 않았습니다.

💡 요약

기존의 AI 안전 장치는 보이지 않는 머릿속 규칙에 의존했지만, Safe Transformer 는 눈에 보이는 스위치를 달았습니다.

  • 스위치가 1 이면: "안전해요, 도와드릴게요!"
  • 스위치가 0 이면: "위험해요, 거절할게요!"

이 스위치는 AI 가 스스로 판단하기도 하지만, 우리가 필요할 때 직접 조작할 수도 있습니다. 마치 자동차의 안전벨트와 에어백이 자동으로 작동하지만, 운전자가 비상 시 수동으로 조작할 수 있는 것과 같은 원리입니다.

이 기술은 AI 가 더 투명하고, 우리가 더 잘 통제할 수 있는 방향으로 나아가는 중요한 첫걸음입니다.