Detoxifying LLMs via Representation Erasure-Based Preference Optimization

이 논문은 기존 방법론의 취약점을 극복하고 재학습 공격 및 정교한 탈출 공격에 강한 내성을 가지면서도 모델의 일반적 유용성을 유지하는 '표현 소거 기반 선호도 최적화 (REPO)'를 제안하여 LLM 의 독성 출력을 근본적으로 제거하는 새로운 접근법을 제시합니다.

Nazanin Mohammadi Sepahvand, Eleni Triantafillou, Hugo Larochelle, Doina Precup, Daniel M. Roy, Gintare Karolina Dziugaite

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 비유: "나쁜 말버릇을 고치는 두 가지 방법"

거대 언어 모델 (LLM) 은 인터넷의 모든 글을 읽어서 배운 '지식'을 가진 인공지능입니다. 하지만 인터넷에는 욕설이나 혐오 발언 같은 '독성 (Toxic)' 데이터도 섞여 있어서, AI 가 가끔 나쁜 말을 하기도 합니다.

기존의 해결책들은 **"AI 가 나쁜 말을 하지 않게 억제하는 것"**에 집중했습니다. 마치 아이가 나쁜 말을 하면 "하지 마!"라고 혼내는 것과 비슷합니다. 하지만 아이는 그 순간만 참고, 다시 혼나지 않으면 나쁜 말을 다시 하거나, 다른 방식으로 (예: 은유를 쓰거나) 나쁜 말을 찾아냅니다.

이 논문은 **"나쁜 말버릇을 아예 기억에서 지워버리는 것"**을 제안합니다.

🚫 기존 방법의 한계 (표면적인 치료)

기존의 '선호도 최적화 (DPO, NPO 등)' 방법들은 AI 가 나쁜 말을 할 확률만 낮췄을 뿐입니다.

  • 비유: AI 의 머릿속에 나쁜 말을 저장하는 **'비밀 상자'**가 여전히 그대로 있는데, 그 상자를 여는 열쇠를 잠가두는 것과 같습니다.
  • 문제점: 해커나 악의적인 사용자가 "열쇠를 뚫는 방법 (재학습 공격, 지능적인 해킹)"을 찾으면, AI 는 다시 나쁜 말을 하기 시작합니다. 마치 잠금장치가 약해서 쉽게 뚫리는 것과 같습니다.

💡 새로운 방법: REPO (기억의 뿌리 뽑기)

이 논문에서 제안한 **REPO(Representation Erasure-based Preference Optimization)**는 훨씬 더 근본적인 접근법을 취합니다.

1. 핵심 아이디어: "나쁜 기억의 흔적을 지우기"
REPO 는 AI 가 나쁜 말을 할 때 머릿속에서 일어나는 **'신호 (표현)'**를 분석합니다. 그리고 그 신호가 나쁜 말을 할 때와 좋은 말을 할 때 구분되지 않게 만들어버립니다.

  • 비유: AI 의 뇌속에서 나쁜 말을 하는 '신경 회로'를 찾아내서, 그 회로의 전선을 잘라버리거나 다른 회로와 섞어버리는 것입니다. 더 이상 AI 가 "이건 나쁜 말이야"라고 인식할 수 없게 만드는 거죠.

2. 어떻게 작동할까요? (동시성 학습)
REPO 는 두 가지 일을 동시에 합니다.

  • 선한 행동 유지: 좋은 말 (비독성) 을 할 때는 원래 AI 와 똑같이 잘 하도록 지켜줍니다. (기존 실력을 잃지 않게 함)
  • 나쁜 행동 지우기: 나쁜 말 (독성) 을 하려고 할 때는, 그 순간의 뇌 신호를 좋은 말의 신호와 완전히 똑같아지도록 만듭니다.
    • 결과: AI 는 나쁜 말을 하려고 해도, 뇌속에서 그 신호가 "좋은 말"로 인식되어 버립니다. 그래서 나쁜 말을 할 수 없게 됩니다.

🛡️ 왜 이 방법이 더 강력한가요?

기존 방법들은 AI 가 나쁜 말을 할 '확률'만 줄였지만, REPO 는 나쁜 말을 할 수 있는 '능력 (내부 구조)' 자체를 제거합니다.

  • 재학습 공격 (Relearning Attack) 방어:

    • 상황: 해커가 아주 적은 양의 나쁜 데이터로 AI 를 다시 훈련시켜 (재학습) 나쁜 말을 다시 하게 만들려고 합니다.
    • 기존 방법: 쉽게 다시 나쁜 말을 하게 됩니다. (잠금장치가 뚫림)
    • REPO: 나쁜 말을 기억하는 '신경 회로'가 이미 지워졌기 때문에, 아무리 작은 데이터로 다시 훈련시켜도 그 회로는 다시 생기지 않습니다. 기억이 아예 사라진 상태이기 때문입니다.
  • 지능적인 해킹 (Jailbreak) 방어:

    • 상황: 해커가 AI 를 속여서 나쁜 말을 하게 만드는 복잡한 문장을 사용합니다.
    • REPO: AI 의 뇌속에서 나쁜 말과 관련된 '신호' 자체가 사라졌기 때문에, 어떤 문장을 써도 그 신호가 작동하지 않아 나쁜 말이 나오지 않습니다.

📊 요약: REPO 의 성과

이 논문은 여러 실험을 통해 REPO 가 다음과 같은 성과를 냈음을 증명했습니다.

  1. 더 강력한 방어: 기존 방법들 (DPO, NPO, RMU 등) 이 뚫렸던 다양한 해킹 공격을 REPO 는 막아냈습니다.
  2. 실력 유지: 나쁜 말을 지우는 과정에서 AI 가 평소 잘하던 일 (글쓰기, 질문 답변 등) 을 망치지 않았습니다.
  3. 깊은 변화: AI 의 가장 깊은 부분 (신경망의 깊은 층) 에서만 정교하게 나쁜 기억을 지웠기 때문에, 전체적인 성능은 유지되면서 독성만 사라졌습니다.

🎯 결론

이 논문은 **"AI 의 안전을 위해 단순히 입만 막는 게 아니라, 나쁜 생각을 하는 뇌 구조 자체를 고쳐야 한다"**는 메시지를 전달합니다.

마치 나쁜 버릇을 고칠 때, "하지 마!"라고 외치는 것 (기존 방법) 이 아니라, 그 버릇을 일으키는 **기억과 습관의 뿌리부터 뽑아내는 것 (REPO)**이 더 확실하고 영구적인 해결책임을 보여줍니다. 이는 AI 가 더 안전하고 신뢰할 수 있게 만드는 중요한 기술적 진보입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →