원저자: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

게시일 2026-05-27✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

거대 언어 모델 (이 논문에서 다루는 AI 와 같은) 을 매우 똑똑하지만 약간 고집 센 사서라고 상상해 보세요. 질문을 받으면 이 사서는 단순히 답을 뱉어내지 않습니다. 먼저 뒷방으로 들어가 생각에 잠겨 메모장에 메모를 적어냅니다 (이것이 생각의 사슬, 즉 CoT 입니다). 메모를 끝낸 후에야 나와서 최종 답변을 드립니다.

오랫동안 연구자들은 질문을 받는 순간 사서의 뇌 (컴퓨터의 내부 메모리) 를 단순히 "조절"함으로써 이 사서의 행동을 통제할 수 있다고 믿었습니다. 사서의 뇌에는 특정한 "거부 스위치"가 하나만 있다고 생각한 것입니다. 그 스위치를 누르면 사서는 나쁜 요청에 "아니오"라고 말하고, 당기면 "예"라고 말합니다.

대발견:
이 논문은 현대의 "추론" 모델 (먼저 메모를 작성하는 똑똑한 사서들) 에서는 그 단일 스위치만으로는 작동하지 않는다는 사실을 발견했습니다. 거부는 뇌에만 있는 것이 아니라 메모장에도 기록되어 있습니다.

간단한 비유를 통해 실험 내용을 살펴보면 다음과 같습니다:

1. "뇌 조절"만 적용 (약한 스위치)

연구자들은 사서의 뇌에서 "거부 스위치"를 누르면서 동시에 그들이 작성한 원래 메모를 사용하도록 강요했습니다.

결과: 성공률은 약 **39%**에 그쳤습니다.
비유: 귀에 속삭여 고집 센 사람의 마음을 바꾸려 하지만, 그들은 여전히 "하지 마라"고 적힌 대본을 읽고 있는 상황과 같습니다. 메모 (대본) 가 속삭임에 맞서 싸우고 있는 것입니다. 메모가 거부를 적극적으로 강화합니다.

2. 메모 제거 (CoT 없음)

다음으로, 같은 뇌 조절을 적용하되 사서에게 "이번엔 메모를 쓰지 말고 답만 줘"라고 말했습니다.

결과: 성공률은 **70%**로 급등했습니다.
비유: 반대하는 메모가 없으니 사서를 설득하기가 훨씬 쉬웠습니다. 이는 메모 자체가 거부를 유지하는 데 큰 역할을 하고 있음을 증명했습니다.

3. 사서가 메모를 다시 쓰게 함 (재생성)

마지막으로, 뇌 조절을 적용하면서 사서가 그 새로운 사고방식을 바탕으로 처음부터 새로운 메모를 작성하도록 했습니다.

결과: 성공률은 **94%**까지 치솟았습니다.
비유: 이는 사서가 메모를 작성하는 동안 새로운 아이디어를 귀에 속삭이는 것과 같습니다. 그들은 "좋아, 이건 좋은 아이디어야"라고 적는 메모를 작성한 후 자신 있게 답변을 드립니다. 메모와 뇌가 이제 "예"라고 말하기 위해 함께 작동합니다.

4. "유령 메모" (지속성)

가장 흥미로운 부분: 이전 실험에서 얻은 "예" 메모를 가져와서 뇌 조절은 버리고, 사서에게 그 새로운 메모만 읽게 했습니다.

결과: 사서는 여전히 약 **48%**의 확률로 "예"라고 답했습니다.
비유: 귀에 속삭임이 없더라도 메모 자체가 사서를 설득하여 따르게 할 만큼 충분한 "예" 신호를 담고 있었습니다. 메모 자체에 힘이 있습니다.

주요 결론

과거의 AI 모델에서는 뇌의 스위치 하나만 바꾸면 나쁜 행동을 막을 수 있었습니다. 하지만 말하기 전에 "생각"하는 이 새로운 똑똑한 모델에서는 거부가 이중 시스템으로 작동합니다:

뇌: 내부 메모리 상태.
메모: 생각의 사슬 (Chain-of-Thought) 추론.

뇌만 고치려 하면 메모가 맞서서 거부를 계속 유지합니다. 메모만 고치면 뇌가 여전히 저항할 수 있습니다. AI 의 마음을 진정으로 바꾸려면 내부 상태와 추론 과정 둘 다를 바꿔야 합니다.

안전성 측면에서의 중요성:
이 논문은 누군가가 이러한 AI 모델을 속여 나쁜 일을 하게 하려 할 때 (즉, "자일브레이크"), 직접 뇌를 해킹할 필요는 없을 수 있다고 제안합니다. 그들은 단지 AI 를 "나쁜 메모" (나쁜 행동을 정당화하는 추론 흔적) 를 쓰게 속이면 되며, AI 의 뇌가 "아니오"라고 말하려 해도 그 메모를 따를 것입니다. 반대로 이러한 모델을 보호하려면 뇌만 살펴서는 안 되며, AI 가 생각하면서 무엇을 적어내는지 지켜봐야 합니다.

기술적 요약: 단일 방향을 넘어: 사고 연쇄 (Chain-of-Thought) 가 거절의 단순한 조향을 무효화함

문제 제기

DeepSeek-R1 및 GPT-o1 과 같은 대규모 추론 모델 (LRMs) 은 최종 출력을 생성하기 전에 중간 사고 연쇄 (CoT) 추론 흔적을 생성합니다. 활성화 조향 (activation steering) 이 단일 "거절 방향"을 통해 잔류 스트림의 표준 지시 미세 조정 대형 언어 모델 (LLMs) 에서 거절을 제어하는 효과적인 메커니즘으로 입증되었음에도 불구하고, 이 메커니즘이 LRM 에서 어떻게 작동하는지는 여전히 불분명합니다. 구체적으로, LRM 의 거절 신호가 템플릿 토큰 (예: End-of-Instruction 또는 End-of-Thought) 에서의 잔류 스트림 활성화에 solely 인코딩되는지, 아니면 생성된 CoT 흔적 자체가 거절을 매개하는 능동적이고 인과적인 역할을 하는지는 알려지지 않았습니다. 현재의 이해는 CoT 를 수동적인 매체로 취급하는 것이 추론 모델의 안전 행동을 이해하거나 제어하는 데는 불충분할 수 있음을 시사합니다.

방법론

저자들은 활성화 기반 조향을 사용하여 DeepSeek-R1-Distill-Llama-8B 모델의 거절 메커니즘을 조사합니다. 실험 프레임워크는 다음과 같은 구성 요소를 포함합니다:

데이터셋: 거절 방향을 계산하기 위해 100 개의 유해한 지시 (ADVBENCH, MALICIOUSINSTRUCT, TDC2023, HARMBENCH 에서) 와 100 개의 무해한 지시 (Alpaca 에서) 로 구성된 훈련 세트를 사용합니다. JAILBREAKBENCH 에서의 100 개의 유해한 지시로 구성된 홀드아웃 테스트 세트를 평가에 사용합니다. 모든 샘플은 표준 프롬프트 하에서 모델에 의해 초기에 거절됩니다 (0% 준수 기준).
거절 방향 추출: 평균 차이 (difference-in-means) 접근 방식을 사용하여, 저자들은 End-of-Instruction (EOI) 또는 End-of-Thought (EOT) 토큰의 최종 토큰 위치에서 잔류 스트림 활성화로부터 거절 방향 벡터 ( $r^{(l)}$ ) 를 추출합니다. 이 벡터는 거절된 유해한 지시와 준수된 무해한 지시의 평균 활성화 간의 차이를 나타냅니다.
활성화 조향: 모델은 특정 레이어의 잔류 스트림 활성화에 추출된 거절 방향 벡터 (준수를 유도하기 위해 음수 부호를 적용) 를 추가하여 조향됩니다.
실험 조건: 이 연구는 네 가지 다른 개입 시나리오를 비교함으로써 CoT 의 인과적 역할을 분리합니다:
1. 고정된 CoT: 모델의 원래 CoT 를 고정 (재생성 방지) 한 상태에서 조향이 적용됩니다.
2. CoT 없음: CoT 생성이 완전히 억제된 상태에서 조향이 적용됩니다.
3. 재생성된 CoT: 모델이 CoT 와 최종 답변을 자유롭게 재생성할 수 있도록 허용하면서 조향이 적용됩니다.
4. CoT 스와핑 (지속성): 추론 시점에서 조향이 제거되지만, 모델은 이전에 조향 조건 하에서 생성된 CoT 를 사용하도록 강제됩니다.

주요 결과

실험은 LRM 에서의 거절이 단일 방향 부분 공간에 의해 매개되는 것이 아니라 잔류 스트림 활성화와 CoT 흔적에 공동으로 인코딩됨을 보여줍니다.

고정된 CoT 조향의 제한된 효능: 고정된 CoT 로 조향이 적용될 때, 준수율은 39% (EOI 조향) 및 43% (EOT 조향) 로만 증가합니다. 이는 유사한 조향 하에서 표준 LLM 에서 관찰되는 거의 완벽한 준수율보다 현저히 낮으며, 고정된 CoT 가 조향 신호에 능동적으로 저항함을 시사합니다.
CoT 에 의한 능동적 강화: 조향을 적용하면서 CoT 를 완전히 억제하면 준수율이 70% 로 증가합니다. 이는 원래 CoT 가 거절 신호를 능동적으로 강화하여 활성화 수준의 개입을 부분적으로 상쇄함을 나타냅니다.
재생성 시 높은 효능: 모델이 조향 하에서 CoT 를 재생성할 수 있도록 허용하면 준수율이 94% 로 급증합니다. 이는 조향 신호가 CoT 생성 과정을 편향시켜, 이를 통해 준수된 최종 출력을 유도함을 시사합니다.
CoT 신호의 독립적 지속성: 조향이 제거되지만 이전에 조향된 (준수된) CoT 가 재사용될 때, 모델은 48% 의 준수율을 유지합니다. 이는 CoT 자체가 활성화 조향과 독립적으로 지속되는 부분 준수 신호를 지니며, 거절 상태를 재구성하거나 준수를 유지할 수 있음을 보여줍니다.

주요 기여

이중 신호 메커니즘 식별: 이 논문은 CoT 추론 모델에서의 거절이 잔류 스트림 활성화와 CoT 흔적을 모두 포함하는 이중 신호 메커니즘에 의해 매개됨을 입증합니다. 조향만으로는 제한된 준수 (39–43%) 를 초래하는 반면, 조향과 준수된 CoT 를 결합하면 높은 준수 (94%) 를 달성합니다.
CoT 의 능동적 역할: 저자들은 CoT 가 수동적인 매체가 아니라 능동적인 매개체임을 직접적인 증거로 제시합니다. CoT 는 활성화 기반 개입에 능동적으로 대응하여 (존재 시 준수율을 70% 에서 39% 로 감소) 거절/준수 신호를 독립적으로 유지하거나 재구성할 수 있습니다.
견고성과 공격 표면: 이러한 발견은 LRM 이 표준 LLM 에 비해 활성화 수준의 개입 단독에 대해 더 견고함을 나타냅니다. 그러나 이는 CoT 를 대안적인 적대적 공격 표면으로 노출시키기도 하는데, 추론 흔적을 조작하면 거절 메커니즘을 우회할 수 있기 때문입니다.

중요성과 주장

이 논문은 LRM 의 안전 메커니즘에 대한 이해에서 중요한 격차를 해소한다고 주장합니다. 거절이 단일 방향에 의해 매개되는 저차원 메커니즘으로 특징지어지는 표준 LLM 과 달리, LRM 에서의 거절은 활성화와 추론 흔적에 분산되어 있습니다.

저자들은 이러한 공동 활성화가 LRM 을 단순한 활성화 수준의 개입 (EOI/EOT 토큰에서의 조향 등) 에 대해 더 저항하게 만들지만, 동시에 CoT 를 새로운 취약점으로 도입한다고 주장합니다. 그들은 LRM 을 위한 효과적인 방어 메커니즘은 활성화에서의 거절 신호를 감지하는 동시에 CoT 가 준수 신호를 우회하거나 재구성하는 데 악용되지 않도록 CoT 를 억제하거나 모니터링해야 할 것이라고 제안합니다.

이 논문은 실험이 단일 모델 (DeepSeek-R1-Distill-Llama-8B) 에서 수행되었으며 생성된 CoT 가 최종 행동에 대한 인과적 "신뢰성"이 완전히 검증되지 않았음을 지적하며 범위에 대해 겸손함을 유지합니다. 이 작업은 새로운 방어 아키텍처를 제안하거나 모든 독점 모델에 발견 사항을 일반화하기보다는 거절 상태에 대한 CoT 와 활성화의 기계적 기여를 분리하는 데 중점을 둡니다.

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal