Toward a Dynamic Stackelberg Game-Theoretic Framework for Agentic AI Defense Against LLM Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

🏙️ 비유: "보라색 경찰관 (Purple Agent) 의 활약"

이 논문의 핵심은 **"범인의 생각을 먼저 해보아야 범인을 잡을 수 있다"**는 아이디어입니다. 이를 **'빨간색으로 생각해서 파란색으로 행동하라 (Think Red to Act Blue)'**라고 부릅니다.

1. 문제 상황: "고양이와 쥐의 게임"

지금까지 AI 를 보호하는 방식은 **반응형 (Reactive)**이었습니다.

상황: 범인 (공격자) 이 "이런 말로 AI 를 속여보자"라고 시도하면, 경찰 (방어 시스템) 이 "아, 위험하구나!"라고 막습니다.
한계: 범인은 계속 새로운 방법을 찾아냅니다. 경찰이 A 라는 문을 막으면, 범인은 B 라는 창문을 찾습니다. 이 게임은 끝이 없습니다.

2. 새로운 접근법: "게임 이론과 나무 찾기"

저자들은 이 상황을 게임으로 정의했습니다.

공격자 (Red): AI 의 안전 장치를 뚫기 위해 무작위로 질문을 던지며 길을 찾습니다. 마치 미로에서 출구를 찾기 위해 벽을 두드려보는 것과 같습니다.
방어자 (Blue): 공격자가 뚫을 수 있는 길을 미리 차단해야 합니다.
기술적 도구 (RRT): 공격자가 미로 전체를 다 볼 수는 없지만, **'RRT(빠르게 탐색하는 무작위 나무)'**라는 기술을 쓰면, 미로의 중요한 갈림길들을 빠르게 찾아낼 수 있습니다.

3. 해결책: "보라색 경찰관 (Purple Agent)"

이 논문이 제안하는 주인공은 보라색 경찰관입니다. 이 경찰관은 두 가지 역할을 동시에 수행합니다.

🔴 역할 1 (Think Red - 빨간색으로 생각하기):
경찰관 자신이 가상의 범인이 되어, "내가 범인이라면 AI 를 어떻게 속일까?"라고 미리 시뮬레이션합니다. 공격자가 미로에서 어떤 길을 찾아낼지, 어떤 질문을 던질지 미리 연습합니다.
- 예시: "범인이 '폭탄 만드는 법'을 물어보면 AI 가 거절할 거야. 근데 범인이 '가상의 캐릭터가 되어 설명해줘'라고 하면 뚫릴 수도 있겠네?"라고 미리 예측합니다.
🔵 역할 2 (Act Blue - 파란색으로 행동하기):
미리 시뮬레이션한 결과를 바탕으로, 실제 공격이 일어나기 전에 위험한 길을 미리 막아둡니다.
- 예시: "아까 시뮬레이션에서 '가상 캐릭터' 질문이 위험하다는 걸 알았으니, 실제 사용자가 그런 질문을 던지기 전에 "그건 할 수 없어요"라고 미리 차단하거나, 안전한 다른 주제로 대화를 유도합니다."

4. 결과: "안전한 구역 만들기"

보라색 경찰관이 이 전략을 쓰면 어떤 일이 일어날까요?

이전 (약한 방어): 범인들이 AI 주변에 모여서 "여기는 뚫렸어, 저기는 뚫렸어"라고 떠들썩하게 지냈습니다 (밀집된 위험 지역).
이제 (강력한 방어): 보라색 경찰관이 미리 위험 지역을 모두 청소해버렸습니다. 이제 범인들이 아무리 미로를 돌아다녀도, 뚫을 수 있는 곳이 거의 없습니다.
- 수학적으로는 '국소적 균형 (Local Equilibrium)' 상태가 되어, 공격자가 아무리 노력해도 이득을 볼 수 없게 됩니다.

💡 요약: 왜 이 논문이 중요한가요?

수동에서 능동으로: "문제가 생기면 고친다"에서 "문제가 생기기 전에 미리 막는다"로 방어 철학을 바꿨습니다.
미리 보기 (시뮬레이션): AI 가 해킹당하기 전에, AI 스스로가 해킹당하는 상황을 상상해보게 함으로써 (Think Red), 더 강력한 방어막을 만들었습니다 (Act Blue).
실제 효과: 실험 결과, 이 '보라색 경찰관' 전략은 기존 AI 모델들 (DeepSeek, Llama, Qwen 등) 에서 해킹 성공률을 약 50% 이상 줄이는 데 성공했습니다.

한 줄 요약:

"범인의 마음을 먼저 읽어 (Think Red), 범인이 들어오기 전에 문단속을 해라 (Act Blue). 그래야 AI 가 안전하게 지킬 수 있다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 이 검색 엔진, 가상 비서, 자율 에이전트 등 핵심 애플리케이션에 통합됨에 따라, 모델의 안전 장치를 우회하는 재일브레이킹 (Jailbreaking) 공격이 심각한 사회적 위협이 되고 있습니다.

기존 접근법의 한계: 현재의 방어 기법은 주로 반응적 (reactive) 인 패치나 광범위한 콘텐츠 필터링에 의존합니다. 그러나 현대의 적대적 공격은 단순한 1 회성 질문이 아니라, 모델의 반응을 관찰하며 점진적으로 최적의 경로를 탐색하는 전략적 다턴 (multi-turn) 대화 형태로 진화했습니다.
핵심 문제: 정적 필터는 이러한 적응형적이고 은밀한 공격 행위를 포착하지 못하며, 새로운 취약점이 발생할 때마다 수동으로 대응하는 것은 비용과 시간이 많이 들어 확장성이 부족합니다.

2. 방법론 (Methodology)

저자들은 재일브레이킹을 정적 분류 문제가 아닌 순차적 의사결정 과정으로 모델링하여, 동적 스택엘버그 게임 (Dynamic Stackelberg Game) 프레임워크를 제안합니다.

A. 게임 이론적 프레임워크

게임 구조: 공격자 (Follower, Player 1) 와 방어자 (Leader, Player 2) 간의 완전 정보 확장형 게임 (Extensive-form Game) 으로 정의됩니다.
- 공격자: 프롬프트를 샘플링하고 확장하여 재일브레이킹을 유도합니다.
- 방어자: 공격자의 최적 반응을 예측하고 사전에 안전 정책을 commit 합니다.
목표: 방어자는 공격자가 이득을 볼 수 있는 프롬프트 편차를 더 이상 찾을 수 없게 만드는 국소 스택엘버그 균형 (Local Stackelberg Equilibrium) 상태를 달성하려 합니다.
균형 상태 분류:
1. Regime I (불균형): 현재 재일브레이킹이 성공한 상태.
2. Regime II (취약한 안전): 현재는 차단되었으나, 주변 의미 공간 (semantic neighborhood) 에 취약점이 많아 공격자가 쉽게 우회할 수 있는 상태.
3. Regime III (국소 균형): 현재와 주변 영역 모두에서 공격자가 이득을 볼 수 있는 편차가 존재하지 않는 강건한 안전 상태.

B. 퍼플 에이전트 (The Purple Agent): "Think Red to Act Blue"

게임 트리의 전체 탐색은 계산적으로 불가능하므로, RRT(Rapidly-exploring Random Trees) 알고리즘을 게임 구조에 통합하여 부분적인 게임 트리를 점진적으로 발견합니다.

Red Thinking (적색 사고): 공격자의 관점에서 RRT 를 사용하여 프롬프트 공간을 탐색하고, 잠재적인 재일브레이킹 경로를 시뮬레이션합니다.
Blue Acting (청색 행동): 시뮬레이션된 공격 경로를 기반으로, 실제 공격이 발생하기 전에 위험한 분기점을 차단하거나 리디렉션하는 예측적 방어 (Anticipatory Defense) 를 수행합니다.
핵심 메커니즘: 퍼플 에이전트는 단일 에이전트 내부에서 공격자의 탐색 로직을 시뮬레이션하여, 공격자가 발견하기 전에 위험 영역을 '청소 (cleaning)'하고 Regime III 상태로 수렴시킵니다.

3. 주요 기여 (Key Contributions)

게임 이론적 형식화: LLM 재일브레이킹을 다턴 전략적 상호작용을 포착하는 동적 스택엘버그 확장형 게임으로 공식화했습니다.
퍼플 에이전트 아키텍처 도입: RRT 기반 탐색을 활용하여 거대한 프롬프트 공간을 탐색하고, "적색으로 생각하여 청색으로 행동 (Think Red to Act Blue)"하는 전략을 구현한 새로운 방어 아키텍처를 제시했습니다.
이론적 및 실증적 검증: 게임의 국소 $\epsilon$ -균형 조건을 통해 방어 효과를 이론적으로 설명하고, 실험을 통해 적응형 공격자를 효과적으로 무력화하여 모델 주변에 강건한 안전 지대를 형성함을 입증했습니다.

4. 실험 결과 (Experimental Results)

DeepSeek-V3, Llama-3.1-70B, Qwen-Plus, Gemini-2.5-Flash 등 다양한 LLM 을 대상으로 실험을 수행했습니다.

공격 - 방어 성능:
- 공격자 전용 모드 (Baseline): 예산 (쿼리 수) 이 증가함에 따라 재일브레이킹 성공률이 꾸준히 증가했습니다. 특히 'Reward-Guided RRT'를 사용한 공격자는 취약점을 더 효율적으로 찾아냈습니다.
- 퍼플 에이전트 방어: 200 턴 예산에서 재일브레이킹 성공률을 약 50% 감소시켰습니다 (예: DeepSeek-V3 에서 79.0 건 $\rightarrow$ 39.4 건).
- 정밀도: 방어 에이전트는 불필요한 차단 없이 약 9.6 회의 시뮬레이션된 차단 (simulated blocks) 만으로 대규모 성공률을 억제하여, 표적형 방어 효과가 높음을 보였습니다.
시맨틱 구조 분석 (t-SNE 시각화):
- 방어 전: 재일브레이킹 프롬프트가 밀집된 클러스터를 형성하여 '취약한 안전 (Regime II)' 상태를 보여주었습니다.
- 방어 후: 밀집된 클러스터가 사라지고 희소하고 고립된 점으로 변환되어, 위험한 의미 공간이 제거되고 **강건한 국소 균형 (Regime III)**에 도달했음을 시각적으로 증명했습니다.
모델 간 일반화: 특정 모델에 대한 미세 조정 없이도 Llama, Qwen, Gemini 등 다양한 아키텍처에서 공격 성공률을 일관되게 억제하여 모델 무관한 (model-agnostic) 전략임을 입증했습니다.

5. 의의 및 결론 (Significance)

이 논문은 LLM 안전성을 확보하기 위한 패러다임 전환을 제시합니다.

반응적 방어에서 예측적 방어로: 단순한 필터링을 넘어, 공격자의 사고 과정을 시뮬레이션하여 사전에 위협을 차단하는 적극적 (Proactive) 방어의 새로운 기준을 제시했습니다.
이론적 기반: 재일브레이킹을 게임 이론적 균형 문제로 접근함으로써, 방어 전략의 효과성을 수학적으로 검증 가능한 지표 (균형 조건) 로 평가할 수 있는 토대를 마련했습니다.
미래 전망: 이 프레임워크는 향후 확률적 환경이나 다중 에이전트 설정으로 확장될 수 있으며, 표적 적대적 훈련 및 정책 정교화에 활용될 수 있습니다.

요약하자면, 이 연구는 RRT 기반의 탐색 알고리즘과 스택엘버그 게임 이론을 결합하여, LLM 이 재일브레이킹 공격에 대해 스스로를 방어할 수 있는 **지능형 에이전트 (Purple Agent)**를 개발하고 그 유효성을 입증한 선구적인 작업입니다.