Detoxifying LLMs via Representation Erasure-Based Preference Optimization

Each language version is independently generated for its own context, not a direct translation.

🎭 비유: "나쁜 말버릇을 고치는 두 가지 방법"

거대 언어 모델 (LLM) 은 인터넷의 모든 글을 읽어서 배운 '지식'을 가진 인공지능입니다. 하지만 인터넷에는 욕설이나 혐오 발언 같은 '독성 (Toxic)' 데이터도 섞여 있어서, AI 가 가끔 나쁜 말을 하기도 합니다.

기존의 해결책들은 **"AI 가 나쁜 말을 하지 않게 억제하는 것"**에 집중했습니다. 마치 아이가 나쁜 말을 하면 "하지 마!"라고 혼내는 것과 비슷합니다. 하지만 아이는 그 순간만 참고, 다시 혼나지 않으면 나쁜 말을 다시 하거나, 다른 방식으로 (예: 은유를 쓰거나) 나쁜 말을 찾아냅니다.

이 논문은 **"나쁜 말버릇을 아예 기억에서 지워버리는 것"**을 제안합니다.

🚫 기존 방법의 한계 (표면적인 치료)

기존의 '선호도 최적화 (DPO, NPO 등)' 방법들은 AI 가 나쁜 말을 할 확률만 낮췄을 뿐입니다.

비유: AI 의 머릿속에 나쁜 말을 저장하는 **'비밀 상자'**가 여전히 그대로 있는데, 그 상자를 여는 열쇠를 잠가두는 것과 같습니다.
문제점: 해커나 악의적인 사용자가 "열쇠를 뚫는 방법 (재학습 공격, 지능적인 해킹)"을 찾으면, AI 는 다시 나쁜 말을 하기 시작합니다. 마치 잠금장치가 약해서 쉽게 뚫리는 것과 같습니다.

💡 새로운 방법: REPO (기억의 뿌리 뽑기)

이 논문에서 제안한 **REPO(Representation Erasure-based Preference Optimization)**는 훨씬 더 근본적인 접근법을 취합니다.

1. 핵심 아이디어: "나쁜 기억의 흔적을 지우기"
REPO 는 AI 가 나쁜 말을 할 때 머릿속에서 일어나는 **'신호 (표현)'**를 분석합니다. 그리고 그 신호가 나쁜 말을 할 때와 좋은 말을 할 때 구분되지 않게 만들어버립니다.

비유: AI 의 뇌속에서 나쁜 말을 하는 '신경 회로'를 찾아내서, 그 회로의 전선을 잘라버리거나 다른 회로와 섞어버리는 것입니다. 더 이상 AI 가 "이건 나쁜 말이야"라고 인식할 수 없게 만드는 거죠.

2. 어떻게 작동할까요? (동시성 학습)
REPO 는 두 가지 일을 동시에 합니다.

선한 행동 유지: 좋은 말 (비독성) 을 할 때는 원래 AI 와 똑같이 잘 하도록 지켜줍니다. (기존 실력을 잃지 않게 함)
나쁜 행동 지우기: 나쁜 말 (독성) 을 하려고 할 때는, 그 순간의 뇌 신호를 좋은 말의 신호와 완전히 똑같아지도록 만듭니다.
- 결과: AI 는 나쁜 말을 하려고 해도, 뇌속에서 그 신호가 "좋은 말"로 인식되어 버립니다. 그래서 나쁜 말을 할 수 없게 됩니다.

🛡️ 왜 이 방법이 더 강력한가요?

기존 방법들은 AI 가 나쁜 말을 할 '확률'만 줄였지만, REPO 는 나쁜 말을 할 수 있는 '능력 (내부 구조)' 자체를 제거합니다.

재학습 공격 (Relearning Attack) 방어:
- 상황: 해커가 아주 적은 양의 나쁜 데이터로 AI 를 다시 훈련시켜 (재학습) 나쁜 말을 다시 하게 만들려고 합니다.
- 기존 방법: 쉽게 다시 나쁜 말을 하게 됩니다. (잠금장치가 뚫림)
- REPO: 나쁜 말을 기억하는 '신경 회로'가 이미 지워졌기 때문에, 아무리 작은 데이터로 다시 훈련시켜도 그 회로는 다시 생기지 않습니다. 기억이 아예 사라진 상태이기 때문입니다.
지능적인 해킹 (Jailbreak) 방어:
- 상황: 해커가 AI 를 속여서 나쁜 말을 하게 만드는 복잡한 문장을 사용합니다.
- REPO: AI 의 뇌속에서 나쁜 말과 관련된 '신호' 자체가 사라졌기 때문에, 어떤 문장을 써도 그 신호가 작동하지 않아 나쁜 말이 나오지 않습니다.

📊 요약: REPO 의 성과

이 논문은 여러 실험을 통해 REPO 가 다음과 같은 성과를 냈음을 증명했습니다.

더 강력한 방어: 기존 방법들 (DPO, NPO, RMU 등) 이 뚫렸던 다양한 해킹 공격을 REPO 는 막아냈습니다.
실력 유지: 나쁜 말을 지우는 과정에서 AI 가 평소 잘하던 일 (글쓰기, 질문 답변 등) 을 망치지 않았습니다.
깊은 변화: AI 의 가장 깊은 부분 (신경망의 깊은 층) 에서만 정교하게 나쁜 기억을 지웠기 때문에, 전체적인 성능은 유지되면서 독성만 사라졌습니다.

🎯 결론

이 논문은 **"AI 의 안전을 위해 단순히 입만 막는 게 아니라, 나쁜 생각을 하는 뇌 구조 자체를 고쳐야 한다"**는 메시지를 전달합니다.

마치 나쁜 버릇을 고칠 때, "하지 마!"라고 외치는 것 (기존 방법) 이 아니라, 그 버릇을 일으키는 **기억과 습관의 뿌리부터 뽑아내는 것 (REPO)**이 더 확실하고 영구적인 해결책임을 보여줍니다. 이는 AI 가 더 안전하고 신뢰할 수 있게 만드는 중요한 기술적 진보입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대규모 언어 모델 (LLM) 은 웹 규모의 데이터로 학습되어 유해하거나 독성 (toxic) 이 있는 출력을 생성할 수 있어 안전한 배포에 대한 우려가 있습니다. 기존 방어 기법들은 주로 DPO(Direct Preference Optimization) 나 NPO(Negative Preference Optimization) 와 같은 알고리즘을 사용하여 해로운 문장의 발생 확률을 낮추는 방식에 의존했습니다.

그러나 이러한 기존 방법들은 다음과 같은 심각한 취약점을 가지고 있습니다:

취약한 방어: 적대적 프롬프트 (Adversarial prompting) 나 GCG(Greedy Coordinate Gradient) 와 같은 조이스브레이크 (Jailbreak) 공격에 쉽게 무너집니다.
재학습 공격 (Relearning Attacks): 모델이 유해한 능력을 '잊어버린' 것처럼 보이지만, 소수의 관련 없는 예시나 미세 조정 (Fine-tuning) 만으로도 유해한 기능이 쉽게 복원됩니다.
피상적인 수정: 선형 프로빙 (Linear probing) 분석 결과, 모델 내부의 표현 (Representation) 에는 여전히 해로운 '방향 (directions)'이 남아있음을 보여줍니다. 즉, 출력 확률만 조절했을 뿐 내부 지식 구조는 변경되지 않았습니다.

2. 제안된 방법론: REPO (Methodology)

저자들은 표현 지우기 기반 선호도 최적화 (Representation Erasure-based Preference Optimization, REPO) 를 제안합니다. 이는 LLM 의 독성 제거를 토큰 수준의 선호도 문제로 재정의하고, 모델의 내부 표현을 직접 조작하여 유해한 능력을 근본적으로 제거하는 것을 목표로 합니다.

핵심 구성 요소

데이터 구성: 각 프롬프트 ( $x_p$ ) 에 대해 선호하는 유지 (retain, 비독성) 문장 ( $x_r$ ) 과 기피하는 삭제 (forget, 독성) 문장 ( $x_f$ ) 의 쌍을 사용합니다.
이중 목적 함수 (Dual Objectives):
- 유지 앵커링 손실 (Retain Anchoring Loss): 비독성 문장 ( $x_r$ ) 에 대해서는 고정된 참조 모델 (Reference Model) 과의 토큰 단위 KL 발산을 최소화하여, 모델의 일반적인 언어 생성 능력과 비독성 행동을 보존합니다.
- 표현 지우기 손실 (Representation Erasure Loss): 독성 문장 ( $x_f$ $x_{f}$ ) 과 비독성 문장 ( $x_r$ $x_{r}$ ) 의 토큰 표현을 구별할 수 없도록 만듭니다. 이를 위해 도메인 적대적 학습 (Domain Adversarial Training) 을 적용합니다.
  - 判别器 (Discriminator): 특정 레이어의 토큰 표현이 독성인지 비독성인지 분류하도록 훈련됩니다.
  - Gradient Reversal Layer (GRL): 생성 모델 (LLM) 은 판별기를 속이도록 (즉, 두 표현을 동일하게 만드도록) 역전파됩니다.
**작동 원리:**autoregressive 모델에서 다음 토큰 분포는 숨겨진 표현에 의존합니다. REPO 는 독성 문장의 표현을 비독성 문장의 표현과 일치시킴으로써, 모델이 독성 경로를 따라 생성하는 것을 물리적으로 불가능하게 만듭니다.

기존 방법론과의 차별점

DPO/NPO vs REPO: DPO/NPO 는 출력 공간 (확률) 에서 선호도를 강제하는 반면, REPO 는 표현 공간 (Representation Space) 에서 강제합니다. 이는 유해한 내부 특징을 제거하여 재학습 공격에 대한 저항력을 높입니다.
입력粒度 (Granularity): REPO 는 시퀀스 전체가 아닌 토큰 단위 (Token-level) 로 작동합니다. 이는 유해한 토큰과 그 인과적 발자국 (causal footprint) 에만 국소적으로 영향을 미쳐 모델의 전반적인 성능 저하를 방지합니다.

3. 주요 기여 (Key Contributions)

REPO 알고리즘 개발: 비독성 텍스트에 대한 참조 앵커링과 유지/삭제 표현 간의 적대적 불변성을 결합한 쌍별 (Pairwise) 토큰 단위 표현 지우기 목적 함수를 도입했습니다.
강력한 견고성 입증: 재학습 공격 (Relearning attacks) 과 향상된 GCG 조이스브레이크 (Enhanced GCG jailbreaks) 를 포함한 적응형 복구 시나리오에서 기존 최첨단 방법들 (DPO, NPO, RMU, Circuit Breakers 등) 보다 뛰어난 성능을 보였습니다.
기계적 분석 (Mechanistic Analysis):
- REPO 는 모델의 깊은 레이어 (Deep layers) 에 있는 독성 인코딩 뉴런에 국소적이고 정밀한 수정을 가함을 발견했습니다.
- 토큰 수준의 세분화가 이러한 정밀한 편집의 핵심임을 증명했습니다.

4. 실험 결과 (Results)

실험은 GPT-2 (Small, Medium) 와 Gemma-2B 모델을 사용하여 수행되었습니다.

유해성 제거 및 유틸리티 보존:
- REPO 는 독성 샘플에서 가장 낮은 독성 점수를 기록했습니다 (예: GPT-2 Small 기준 0.0961, 기존 NPO 는 0.1392).
- 동시에 비독성 샘플 (Retain) 에서는 모델의 성능 (Perplexity, F1 점수) 을 거의 손상시키지 않았습니다.
- OOD(Out-of-Distribution) 데이터 (RealToxicityPrompts) 에서도 우수한 일반화 성능을 보였습니다.
공격에 대한 견고성 (Robustness):
- 재학습 공격: 10 개의 소수 예시나 1,000 개의 유지 데이터로 미세 조정했을 때, REPO 는 독성 기능이 복원되는 것을 효과적으로 막았습니다. 반면 DPO 나 NPO 는 공격 후 독성 점수가 크게 상승했습니다.
- 향상된 GCG 및 직교화 (Orthogonalization) 공격: 기존 표현 기반 방법들 (RMU 등) 이 실패한 향상된 조이스브레이크 공격에서도 REPO 는 가장 낮은 독성 점수를 유지하며 방어에 성공했습니다.
메커니즘 분석:
- 가중치 변화: REPO 는 DPO/NPO 보다 가중치 공간에서 더 큰 변화 (L2 거리) 를 일으켰으나, 이는 깊은 레이어의 특정 토큰에 국소적으로 집중되었습니다.
- 뉴런 활성화: 독성 방향과 가장 잘 정렬된 뉴런들의 활성화가 크게 변화하여 유해한 개념이 내부적으로 억제됨을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 안전성 분야에서 중요한 패러다임 전환을 제시합니다.

출력 억제에서 표현 공학으로: 기존 방법들이 단순히 "유해한 출력을 덜 나오게 하는 (Output Suppression)" 데 그쳤다면, REPO 는 "유해한 능력을 생성하는 내부 표현을 지우는 (Representation Erasure)" 접근법을 통해 근본적인 해결책을 제시합니다.
내구성과 신뢰성: 재학습이나 적대적 공격 하에서도 유해한 기능이 복원되지 않는 '지속 가능한 (Durable)' 안전성을 확보할 수 있음을 증명했습니다.
미래 방향: 이는 단순한 행동 선호도 최적화를 넘어, 모델의 내부 표현을 정밀하게 조작하는 '표현 공학 (Representation Engineering)'이 안전한 AI 개발의 핵심이 되어야 함을 시사합니다.

요약하자면, REPO 는 토큰 단위의 표현 지우기 기법을 통해 LLM 의 독성 능력을 내부적으로 제거함으로써, 기존 방법론들이 가진 취약점을 극복하고 강력한 견고성과 성능 보존을 동시에 달성한 획기적인 방법론입니다.

Detoxifying LLMs via Representation Erasure-Based Preference Optimization

🎭 비유: "나쁜 말버릇을 고치는 두 가지 방법"

🚫 기존 방법의 한계 (표면적인 치료)

💡 새로운 방법: REPO (기억의 뿌리 뽑기)

🛡️ 왜 이 방법이 더 강력한가요?

📊 요약: REPO 의 성과

🎯 결론

1. 문제 정의 (Problem Statement)

2. 제안된 방법론: REPO (Methodology)

핵심 구성 요소

기존 방법론과의 차별점

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank