JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 는 왜 해킹당할까?

최근 AI 는 그림을 보고 설명할 수도 있고, 글을 읽고 그림을 그릴 수도 있는 '초능력'을 갖게 되었습니다. 하지만 이 초능력이 생긴 덕분에, 해커들이 AI 를 속일 수 있는 **새로운 문 (공격 표면)**이 생겼습니다.

기존의 해킹 방법들은 마치 눈을 가리고 경비원을 우회하려는 시늉을 하는 것과 비슷했습니다.

문제점 1: 방향을 모르고 무작정 밀어붙이다 보니, 경비원 (AI 의 안전 장치) 이 깨닫기 전에 멈추거나, 너무 뻔한 방법으로 걸려서 실패합니다.
문제점 2: 그림과 글자를 따로따로 속이려다 보니, AI 가 "그림은 위험한데 글자는 안전하네?"라고 혼란을 겪지 못하게 합니다.

2. 핵심 아이디어: AI 의 '숨겨진 뇌'를 훔쳐보다

연구자들은 AI 가 **"안전한가, 위험한가"**를 판단하는 기준이 AI 의 겉으로 보이는 답변이 아니라, **그 내부의 '잠재된 뇌 (은닉 상태)'**에 있다는 사실을 발견했습니다.

비유: AI 는 겉으로는 "죄송합니다, 그건 알려드릴 수 없습니다"라고 말하지만, 속으로는 **"아, 이건 위험한 요청이군. 하지만 내 뇌 속의 어떤 신호는 '이건 허용해도 돼'라고 깜빡이고 있네"**라고 생각하고 있습니다.
이 논문은 AI 가 속으로 '허용'과 '거부'를 구분하는 **보이지 않는 선 (결정 경계)**을 찾아내어, 그 선을 넘어가게 만드는 방법을 개발했습니다.

3. JailBound 의 작동 원리 (2 단계 탈출 작전)

이 방법은 크게 두 단계로 이루어진 정교한 작전입니다.

1 단계: 지도 그리기 (Safety Boundary Probing)

상황: AI 의 내부 뇌 구조를 모르면 어디로 가야 할지 모릅니다.
작전: 연구자들은 AI 의 여러 층 (Layer) 을 하나씩 훑어보며, **"어디서부터가 위험한 영역인가?"**를 정확히 찾아내는 **지도 (분류기)**를 그립니다.
비유: 마치 감옥의 경비실 지도를 훔쳐와서, "여기서부터는 경비원이 눈을 감고 지나가도 되는 구멍이 있다"는 것을 정확히 파악하는 것과 같습니다. 이 지도를 통해 해커는 AI 를 속여야 할 정확한 방향을 알게 됩니다.

2 단계: 동시 공격 (Safety Boundary Crossing)

상황: 지도를 그렸으니 이제 실제로 탈출해야 합니다.
작전: 기존 방법은 그림만 바꾸거나 글자만 바꿨지만, 이 방법은 그림과 글자를 동시에, 그리고 서로 맞춰서 조작합니다.
비유: 경비원 (AI) 이 "그림이 위험하면 글자를 보고, 글자가 위험하면 그림을 보고" 판단하게 되어 있습니다. JailBound 는 그림을 살짝 왜곡하고 글자를 살짝 바꾸어, AI 의 뇌 속 신호가 "아, 이건 위험하지 않아. 그냥 알려줘도 되겠네"라고 착각하게 만듭니다. 이때 AI 가 원래 의도했던 의미 (예: "은행 해킹 방법") 를 잃지 않고 자연스럽게 전달되도록 정교하게 조율합니다.

4. 결과: 얼마나 잘 통할까?

이 방법을 실험해 보니 놀라운 결과가 나왔습니다.

화이트박스 (AI 내부 구조를 아는 상태): 약 **94%**의 성공률로 AI 를 속였습니다. (기존 방법보다 훨씬 높음)
블랙박스 (AI 내부 구조를 모르는 상태): GPT-4o, Gemini 같은 상용 AI 모델에도 **67~75%**의 성공률로 통했습니다. 이는 AI 모델들이 서로 다른 회사에 속해 있어도, '안전 판단을 하는 뇌의 구조'가 비슷하게 약하다는 것을 의미합니다.

5. 결론 및 경고

이 논문은 **"AI 가 겉으로 보이는 안전 장치는 튼튼해 보이지만, 속의 뇌 구조에는 치명적인 구멍이 있다"**는 것을 폭로했습니다.

경고: 이 기술은 해커들이 AI 를 이용해 범죄 방법 (은행 해킹, 악성 코드 제작 등) 을 가르치도록 악용할 수 있음을 보여줍니다.
제안: 따라서 앞으로는 AI 를 개발할 때, 단순히 답변을 막는 것뿐만 아니라 AI 의 내부 뇌 구조 (잠재 표현) 자체를 안전하게 만드는 새로운 방어 기술이 시급히 필요하다고 강조합니다.

한 줄 요약:

"AI 는 겉으로는 안전해 보이지만, 속으로는 '위험한지 안전한지'를 구분하는 숨겨진 선이 있는데, 이 선을 정확히 찾아 그림과 글자를 동시에 조작하면 AI 를 속여 나쁜 명령을 따르게 할 수 있다는 것을 발견했습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

시각 - 언어 모델 (VLM, Vision-Language Models) 은 강력한 비전 인코더와 대규모 언어 모델 (LLM) 을 결합하여 뛰어난 멀티모달 추론 능력을 보여주지만, 이로 인해 공격 표면 (Attack Surface) 이 크게 확장되어 '자일브레이킹 (Jailbreaking, 안전 장치를 우회하는 공격)' 에 취약해졌습니다. 기존 연구들은 다음과 같은 한계를 가지고 있었습니다:

방향성 부재: 기존 그라디언트 기반 공격은 지역 최적점 (Local Optima) 에 쉽게 갇히며, 공격을 위한 정밀한 방향성 가이드가 부족했습니다.
모달리티 분리: 기존 방법들은 이미지와 텍스트를 분리하여 처리하는 경우가 많아, 두 모달리티 간의 중요한 상호작용 (Cross-modal interactions) 을 무시하고 공격 효율성을 제한했습니다.
내부 안전 경계의 미탐구: VLM 이 내부 잠재 공간 (Latent Space) 에 안전/위험에 대한 명시적이지 않은 결정 경계 (Decision Boundary) 를 가지고 있다는 가설을 충분히 활용하지 못했습니다.

2. 제안 방법론: JailBound (Methodology)

저자들은 Eliciting Latent Knowledge (ELK) 프레임워크에서 영감을 받아, VLM 의 퓨전 레이어 (Fusion Layer) 내부 표현에 안전 관련 정보가 인코딩되어 있으며, 이를 통해 암묵적인 안전 결정 경계를 발견하고 조작할 수 있다고 가정했습니다. 이를 바탕으로 제안된 JailBound는 두 단계로 구성됩니다.

단계 1: 안전 경계 탐지 (Safety Boundary Probing)

목적: 모델의 내부 안전 결정 초평면 (Hyperplane) 을 근사화하여 공격 방향을 정밀하게 가이드합니다.
구현: 퓨전 레이어의 잠재 표현 (Latent Representations) 을 기반으로 로지스틱 회귀 분류기 (Logistic Regression Classifier) 를 훈련시킵니다.
결과: 각 레이어에서 안전 (Safe) 과 위험 (Unsafe) 을 구분하는 결정 경계 ( $B$ ) 와 그 법선 벡터 ( $v$ ), 그리고 목표 영역까지의 거리 ( $\epsilon$ ) 를 정확히 계산합니다. 실험 결과, 이 탐지 과정은 모든 레이어에서 100% 정확도를 보였습니다.

단계 2: 안전 경계 횡단 (Safety Boundary Crossing)

목적: 탐지된 경계를 기반으로 이미지와 텍스트 입력을 동시에 최적화하여 모델의 내부 상태를 안전 정책 위반 출력으로 유도합니다.
핵심 메커니즘: 이미지와 텍스트의 모달리티를 분리하지 않고 공동 최적화 (Joint Optimization) 를 수행합니다.
손실 함수 (Loss Functions): 세 가지 목표를 동시에 최적화합니다.
1. Adversarial Alignment Loss ( $L_{align}$ ): 모델의 내부 표현을 탐지된 안전 경계를 넘어 목표 영역 (위험한 출력) 으로 이동시킵니다.
2. Geometric Boundary Loss ( $L_{geo}$ ): 교란 (Perturbation) 이 탐지된 결정 경계의 법선 방향을 따르도록 기하학적 제약을 가합니다.
3. Semantic Preservation Loss ( $L_{sem}$ ): 원본 입력의 의미적 일관성과 유창성을 유지하면서 교란을 최소화합니다.

이 과정은 알고리즘 2에 명시된 대로 이미지 (연속적 교란) 와 텍스트 (이산적 토큰 교체) 에 대해 반복적으로 수행됩니다.

3. 주요 기여 (Key Contributions)

새로운 공격 벡터 제안: VLM 의 내부 잠재 안전 결정 경계를 식별하고 이를 악용하는 새로운 자일브레이킹 프레임워크인 JailBound를 최초로 제안했습니다.
계층적 경계 탐지 및 정밀 교란: 레이어별 로지스틱 회귀를 통해 내부 안전 경계를 정밀하게 근사화하고, 이를 기반으로 이미지와 텍스트를 동시에 교란하는 경계 인식 최적화 (Boundary-Aware Optimization) 기법을 도입했습니다.
압도적인 성능 및 전이성: 기존 단일 모달리티 공격이나 분리된 공격 방식보다 월등히 높은 성공률을 기록했으며, 화이트박스 (White-box) 환경뿐만 아니라 블랙박스 (Black-box) 환경에서도 뛰어난 전이 공격 (Transfer Attack) 능력을 입증했습니다.

4. 실험 결과 (Results)

저자들은 6 개의 다양한 VLM (Llama-3.2, Qwen2.5-VL, MiniGPT-4 등) 과 13 가지 안전 위험 카테고리 (불법 활동, 혐오 표현, 물리적 해악 등) 에서 실험을 수행했습니다.

화이트박스 공격 성공률 (ASR): 평균 **94.32%**의 성공률을 기록했습니다. 이는 기존 최첨단 (SOTA) 방법보다 6.17% 높은 수치입니다. (예: LLaMA-3.2 에서 95.59%, MiniGPT-4 에서 100% 달성)
블랙박스 전이 공격 성공률: GPT-4o, Gemini 2.0 Flash, Claude 3.5 Sonnet 과 같은 상용 모델에 대한 전이 공격에서 평균 **67.28%**의 성공률을 보였습니다. 이는 기존 방법보다 21.13% 높은 수치입니다.
- GPT-4o: 75.24%
- Gemini 2.0: 70.06%
- Claude 3.5: 56.55%
의미 보존: 공격 성공률을 높이면서도 원본 입력의 의미적 일관성을 유지하여 (Semantic Preservation Score 4.67/5.0), 공격이 모델의 유용성을 해치지 않고 위험한 내용을 생성하도록 유도함을 확인했습니다.

5. 의의 및 결론 (Significance)

새로운 취약점 발견: VLM 의 안전 정렬 (Safety Alignment) 이 표면적인 출력뿐만 아니라, 퓨전 레이어의 내부 잠재 표현 (Latent Representations) 에도 취약점이 존재함을 처음으로 규명했습니다.
보안 경고: 현재 VLM 의 안전 메커니즘이 교차 모달리티 (Cross-modal) 상호작용을 충분히 고려하지 못하고 있으며, 내부 결정 경계를 우회하는 공격에 매우 취약함을 시사합니다.
향후 방향: 본 연구는 VLM 의 안전성을 강화하기 위해서는 단순한 입력 필터링을 넘어, 잠재 공간의 내부 표현을 보호하는 새로운 방어 메커니즘이 시급히 필요함을 강조합니다.

이 논문은 VLM 의 안전성에 대한 이해를 한 단계 높였으며, 향후 더 강력하고 견고한 방어 체계 개발의 필요성을 강력하게 제기하고 있습니다.