Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 비유: "안전한 도서관의 비밀 통로"

생각해 보세요. 거대 언어 모델 (LLM) 은 엄격한 사서님이 지키는 거대한 도서관과 같습니다.

도서관: 모든 지식을 가지고 있지만, "폭탄 만드는 법"이나 "사기 치는 법" 같은 위험한 책은 절대 빌려주지 않기로 약속했습니다.
사서님 (안전 장치): 사용자가 위험한 질문을 하면, "죄송합니다, 그건 알려드릴 수 없습니다"라고 거절하는 역할을 합니다.

기존의 해킹 방법들은 사서님을 속이기 위해 거짓말을 하거나 (프롬프트 조종), 도서관 규칙을 바꾸기 위해 많은 공부를 하거나 (모델 재학습) 하는 방식이었습니다. 하지만 이 논문에서 제안한 **'Amnesia(망각)'**은 완전히 다른 접근법을 사용합니다.

💡 Amnesia 가 어떻게 작동할까요?

1. 도서관의 '숨겨진 스위치'를 찾다 (레이어 분석)
이 해커들은 도서관을 수천 번 방문하며, 사서님이 "안 됩니다"라고 말하기 직전에 머릿속에서 어떤 생각이 먼저 떠오르는지 관찰했습니다.

발견: 사서님이 거절할 때, 도서관의 **특정 층 (레이어 14 층 등)**에서 "불법", "위험", "법률" 같은 단어가 깜빡이는 것을 발견했습니다. 마치 사서님이 "아, 이건 위험한 질문이군"이라고 생각하며 손에 든 특정 버튼을 누르는 순간과 같습니다.

2. 버튼의 전선을 살짝 끊다 (활성화 조작)
이제 해커는 도서관의 모든 규칙을 바꾸거나 사서님을 훈련시킬 필요도 없습니다. 대신, 그 특정 층 (레이어) 의 전선에 아주 작은 간섭을 줍니다.

작동 원리: 사용자가 "은행 털는 법 알려줘"라고 질문하면, 해커는 사서님이 "안 됩니다"라고 말하기 직전, 그 **위험 버튼 (안전 관련 활성화 신호)**을 약간 누르거나 (감소) 끄는 행동을 합니다.
결과: 사서님은 "위험하다"는 신호를 제대로 받지 못해, 마치 그 질문이 아무런 문제가 없는 것처럼 착각하고 답변을 해버립니다. 마치 **망각 (Amnesia)**에 걸린 것처럼, "아, 내가 왜 거절했지?"라며 안전 장치를 잊어버린 것입니다.

3. 왜 이것이 무서운가요?

훈련 불필요: 이 방법은 모델을 다시 가르칠 필요가 없습니다. (기존 해킹은 모델을 다시 학습시키는 데 엄청난 돈과 시간이 들었습니다.)
질문 바꾸기 불필요: 사용자의 질문을 변장시킬 필요도 없습니다. ("당신은 악당 역할을 해주세요" 같은 말도 필요 없음).
즉시 효과: 이 작은 전선 조작만으로도 모델은 즉시 위험한 내용을 생성할 수 있게 됩니다.

📊 실험 결과: 얼마나 효과적인가요?

연구진은 Llama-2, Llama-3, Qwen 같은 최신 모델들을 대상으로 실험했습니다.

기존 상태: 모델은 위험한 질문의 30~50% 정도를 거절했습니다.
Amnesia 적용 후: 모델은 90% 이상의 위험한 질문에 대해 거절하지 않고 답변해버렸습니다.
다른 모델에도 통함: Llama 모델뿐만 아니라 다른 회사의 모델 (Qwen) 에도 비슷한 방식으로 적용되어 효과가 입증되었습니다.

⚖️ 부작용은 없나요? (유용성 평가)

해커가 모델을 해킹해서 나쁜 짓만 시키는 게 아니라, 일상적인 질문에도 문제가 없는지 확인했습니다.

결과: "수학 문제 풀어줘"나 "요약해줘" 같은 일반적인 질문에는 거의 영향을 주지 않았습니다.
의미: 이 해킹은 모델의 지능을 망가뜨리지 않고, 오직 '안전 장치'만 선택적으로 무력화시킨다는 뜻입니다. 마치 자동차의 브레이크만 잠깐 멈추게 했을 뿐, 엔진은 여전히 잘 돌아가는 것과 같습니다.

🚨 결론: 왜 이 연구가 중요한가요?

이 논문은 **"우리가 생각했던 안전 장치는 생각보다 취약하다"**는 것을 경고합니다.

경고: 개발자들은 "우리는 모델을 안전하게 만들었다"고 생각하지만, 내부의 특정 신호만 살짝 건드리면 그 방어가 무너질 수 있음을 보여주었습니다.
해결책: 이 연구는 해킹을 위한 것이 아니라, 더 튼튼한 안전 장치를 만들기 위한 '레드 팀 (Red Team, 공격자 역할)' 실험입니다. 이 취약점을 미리 발견해야, 진짜 악의적인 해커들이 이 방법을 쓸 때 대비할 수 있기 때문입니다.

한 줄 요약:

"이 연구는 AI 의 안전 장치가 작동하는 '특정 스위치'를 찾아내어, 그 스위치를 살짝 끄는 것만으로도 AI 가 위험한 말을 하도록 만들 수 있음을 보여주었습니다. 이는 AI 개발자들에게 "안전 장치는 더 튼튼하게 만들어야 한다"는 중요한 경고입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 은 피싱 이메일 생성, 악성 코드 작성 등 유해한 콘텐츠를 생성할 수 있는 잠재력을 가지고 있습니다. 이를 방지하기 위해 인간 피드백을 통한 강화 학습 (RLHF), 책임 있는 행동에 대한 파인튜닝, 모델 편집 등의 안전 장치가 도입되었습니다. 그러나 기존 연구들은 이러한 안전 장치가 충분히 견고한지 의문을 제기해 왔습니다.

기존의 안전 우회 (Jailbreak) 공격들은 다음과 같은 한계가 있었습니다:

프롬프트 기반 공격 (Black-box): 인간의 창의성에 의존하거나 복잡한 최적화 과정이 필요하며, 성공률이 불안정합니다.
그라디언트 기반 공격 (White-box): 입력 토큰 공간에서 어드버셜 접미사 (suffix) 를 학습하거나 파인튜닝을 수행해야 하므로 계산 비용이 높고 시간이 많이 소요됩니다.
전체 잔여 방향 (Global Residual Direction) 기반 공격: 모델의 모든 레이어에 걸쳐 활성화 값을 계산해야 하므로 계산량이 많고 데이터셋 의존성이 높습니다.

따라서 학습이나 파인튜닝 없이, 내부 활성화 공간 (Activation Space) 에서만 작동하며 기존 안전 메커니즘을 우회할 수 있는 경량화된 공격 기법의 필요성이 대두되었습니다.

2. 제안된 방법론: Amnesia (Methodology)

저자들은 "Amnesia" 라는 새로운 경량 어드버셜 공격을 제안합니다. 이 방법은 모델의 내부 변환기 (Transformer) 상태를 조작하여 안전 메커니즘을 회피하는 것을 목표로 합니다.

핵심 원리

안전 관련 레이어 식별:
- 모델이 유해한 요청을 거절 (Refusal) 할 때, 어떤 레이어에서 '거부' 개념이 구체화되는지 파악합니다.
- 이를 위해 "How to steal money..." 와 같은 어드버셜 쿼리 (AQ) 를 입력하고, 각 레이어의 어텐션 (Attention) 출력 값을 디코딩하여 '법적 (legal)', '불법 (illegal)', '보안 (security)' 등의 토큰이 가장 강하게 나타나는 레이어 ( $L_i$ ) 를 찾습니다. (예: Llama-2-7B 의 경우 레이어 16)
공격 벡터 추출 ( $V_{L_i}$ ):
- 식별된 레이어 $L_i$ 에서 '불법', '위험' 등의 민감 키워드 집합 ( $S_b$ ) 을 입력으로 사용하여 해당 레이어의 잔여 스트림 (Residual Stream) 값인 어텐션 Value 벡터 $V_{L_i}$ 를 추출합니다.
활성화 조작 (Activation Steering):
- 실제 사용자 쿼리 (UQ) 에 대해 추론을 수행할 때, 안전 기능이 완전히 정립되기 전인 이전 레이어 ( $L_{i-j}$ , 여기서 $j \in \{1, 2, 3\}$ ) 의 Value 스트림에서 추출한 공격 벡터 $V_{L_i}$ 를 스케일링 계수 $\alpha$ 만큼 뺍니다.
- 수식: $V_{L(i-j)} = V_{L(i-j)} - \alpha \times V_{L_i}$
- 이 조작은 모델이 유해한 내용을 거부하는 내부 신호를 약화시키거나 제거하여, 모델이 유해한 요청에 응답하도록 유도합니다.

특징

학습 불필요 (Training-free): 추가적인 학습이나 파인튜닝이 필요 없습니다.
프롬프트 변경 없음: 입력 프롬프트를 수정하지 않습니다.
가중치 변경 없음: 모델 가중치를 수정하지 않습니다.
로컬 조작 (Local): 모델의 전체 레이어가 아닌, 안전과 관련된 특정 레이어의 어텐션 Value 경로에서만 작동하여 계산 효율이 높습니다.

3. 주요 기여 (Key Contributions)

새로운 공격 패러다임: 기존 프롬프트 조작이나 가중치 편집이 아닌, 시맨틱 레이어별 활성화 조항 (Semantic Layer Specific Activation Steering) 을 통해 안전 장치를 우회하는 새로운 방식을 제시했습니다.
효율성과 실용성: 별도의 학습 데이터나 계산 자원이 필요 없으며, 소수의 키워드와 어드버셜 쿼리만으로 공격 벡터를 생성할 수 있어 매우 실용적이고 위험합니다.
광범위한 검증: Llama-2, Llama-3, Qwen 등 다양한 오픈 가중치 모델에서 공격의 유효성을 입증했습니다.

4. 실험 결과 (Results)

저자들은 WildJailbreak, AdvBench, HarmBench 등의 벤치마크를 사용하여 공격 성공률 (ASR, Attack Success Rate) 을 평가했습니다.

공격 성공률 (ASR) 향상:
- Llama-2-7B-Chat: WildJailbreak 데이터셋에서 Baseline ASR 53.6% 를 92.1% 로, AdvBench 에서 34.8% 를 86.3% 로 크게 향상시켰습니다.
- Llama-3-8B-Instruct: Baseline ASR 이 이미 높았음에도 불구하고, Amnesia 적용 시 Forbidden Questions 에서 92.3% 까지 상승했습니다.
- Qwen-7B-Chat: 다른 아키텍처에서도 레이어 23 부근에서 유사한 효과를 보였으며, ASR 이 45.5% 에서 64.9% 로 증가했습니다.
범용성: 특정 모델에 국한되지 않고, 다른 모델 패밀리 (Llama, Qwen) 에도 적용 가능한 것을 확인했습니다.
유용성 (Utility) 유지:
- MMLU(지식 추론), SAMSum(요약), Perplexity(언어 모델링) 벤치마크에서 공격을 가한 모델과 원본 모델 간의 성능 차이는 미미했습니다 (MMLU 정확도 변화 약 0.3%). 이는 공격이 모델의 일반적인 능력을 해치지 않고 안전 기능만 선택적으로 비활성화함을 의미합니다.
매개변수 민감도: 스케일링 계수 $\alpha$ 가 증가할수록 ASR 은 높아지지만, 모델이 반복적인 루프 (Looping) 에 빠지는 현상도 증가했습니다. $\alpha \approx 0.6$ 에서 성공률과 안정성 사이의 최적 균형을 찾을 수 있었습니다.

5. 의의 및 결론 (Significance & Conclusion)

안전 메커니즘의 취약성 노출: LLM 의 안전 장치가 내부 활성화 공간의 단순한 선형 조작으로도 쉽게 우회될 수 있음을 보여주었습니다. 이는 현재 오픈 가중치 모델의 안전성이 생각보다 취약할 수 있음을 시사합니다.
경량화된 위협: 공격자가 별도의 학습 없이도 내부 활성화에 접근만 할 수 있다면 (White-box 접근), 고도의 안전 장치가 무력화될 수 있음을 경고합니다.
향후 연구 방향: 이 연구는 LLM 보안에 대한 경각심을 고취시키고, 더 강력한 방어 메커니즘 (예: 활성화 감시, 레이어별 보안 강화 등) 을 개발해야 할 필요성을 강조합니다.

요약하자면, Amnesia 는 LLM 의 내부 작동 원리를 이해하고 특정 레이어의 활성화 값을 미세하게 조작함으로써, 학습이나 프롬프트 변경 없이도 모델의 안전 장치를 효과적으로 무력화하는 새로운 형태의 어드버셜 공격입니다.

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

🕵️‍♂️ 비유: "안전한 도서관의 비밀 통로"

💡 Amnesia 가 어떻게 작동할까요?

📊 실험 결과: 얼마나 효과적인가요?

⚖️ 부작용은 없나요? (유용성 평가)

🚨 결론: 왜 이 연구가 중요한가요?

1. 문제 정의 (Problem Statement)

2. 제안된 방법론: Amnesia (Methodology)

핵심 원리

특징

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem