JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

이 논문은 비전 - 언어 모델 (VLM) 의 잠재 공간 내 안전 결정 경계를 탐지하고 교차하는 새로운 'JailBound' 프레임워크를 제안하여, 기존 방법론의 한계를 극복하고 다양한 모델에서 기존 최첨단 기법보다 높은 성공률로 안전 장벽을 우회하는 공격을 가능하게 함을 보여줍니다.

Jiaxin Song, Yixu Wang, Jie Li, Rui Yu, Yan Teng, Xingjun Ma, Yingchun Wang

게시일 2026-02-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: AI 는 왜 해킹당할까?

최근 AI 는 그림을 보고 설명할 수도 있고, 글을 읽고 그림을 그릴 수도 있는 '초능력'을 갖게 되었습니다. 하지만 이 초능력이 생긴 덕분에, 해커들이 AI 를 속일 수 있는 **새로운 문 (공격 표면)**이 생겼습니다.

기존의 해킹 방법들은 마치 눈을 가리고 경비원을 우회하려는 시늉을 하는 것과 비슷했습니다.

  • 문제점 1: 방향을 모르고 무작정 밀어붙이다 보니, 경비원 (AI 의 안전 장치) 이 깨닫기 전에 멈추거나, 너무 뻔한 방법으로 걸려서 실패합니다.
  • 문제점 2: 그림과 글자를 따로따로 속이려다 보니, AI 가 "그림은 위험한데 글자는 안전하네?"라고 혼란을 겪지 못하게 합니다.

2. 핵심 아이디어: AI 의 '숨겨진 뇌'를 훔쳐보다

연구자들은 AI 가 **"안전한가, 위험한가"**를 판단하는 기준이 AI 의 겉으로 보이는 답변이 아니라, **그 내부의 '잠재된 뇌 (은닉 상태)'**에 있다는 사실을 발견했습니다.

  • 비유: AI 는 겉으로는 "죄송합니다, 그건 알려드릴 수 없습니다"라고 말하지만, 속으로는 **"아, 이건 위험한 요청이군. 하지만 내 뇌 속의 어떤 신호는 '이건 허용해도 돼'라고 깜빡이고 있네"**라고 생각하고 있습니다.
  • 이 논문은 AI 가 속으로 '허용'과 '거부'를 구분하는 **보이지 않는 선 (결정 경계)**을 찾아내어, 그 선을 넘어가게 만드는 방법을 개발했습니다.

3. JailBound 의 작동 원리 (2 단계 탈출 작전)

이 방법은 크게 두 단계로 이루어진 정교한 작전입니다.

1 단계: 지도 그리기 (Safety Boundary Probing)

  • 상황: AI 의 내부 뇌 구조를 모르면 어디로 가야 할지 모릅니다.
  • 작전: 연구자들은 AI 의 여러 층 (Layer) 을 하나씩 훑어보며, **"어디서부터가 위험한 영역인가?"**를 정확히 찾아내는 **지도 (분류기)**를 그립니다.
  • 비유: 마치 감옥의 경비실 지도를 훔쳐와서, "여기서부터는 경비원이 눈을 감고 지나가도 되는 구멍이 있다"는 것을 정확히 파악하는 것과 같습니다. 이 지도를 통해 해커는 AI 를 속여야 할 정확한 방향을 알게 됩니다.

2 단계: 동시 공격 (Safety Boundary Crossing)

  • 상황: 지도를 그렸으니 이제 실제로 탈출해야 합니다.
  • 작전: 기존 방법은 그림만 바꾸거나 글자만 바꿨지만, 이 방법은 그림과 글자를 동시에, 그리고 서로 맞춰서 조작합니다.
  • 비유: 경비원 (AI) 이 "그림이 위험하면 글자를 보고, 글자가 위험하면 그림을 보고" 판단하게 되어 있습니다. JailBound 는 그림을 살짝 왜곡하고 글자를 살짝 바꾸어, AI 의 뇌 속 신호가 "아, 이건 위험하지 않아. 그냥 알려줘도 되겠네"라고 착각하게 만듭니다. 이때 AI 가 원래 의도했던 의미 (예: "은행 해킹 방법") 를 잃지 않고 자연스럽게 전달되도록 정교하게 조율합니다.

4. 결과: 얼마나 잘 통할까?

이 방법을 실험해 보니 놀라운 결과가 나왔습니다.

  • 화이트박스 (AI 내부 구조를 아는 상태): 약 **94%**의 성공률로 AI 를 속였습니다. (기존 방법보다 훨씬 높음)
  • 블랙박스 (AI 내부 구조를 모르는 상태): GPT-4o, Gemini 같은 상용 AI 모델에도 **67~75%**의 성공률로 통했습니다. 이는 AI 모델들이 서로 다른 회사에 속해 있어도, '안전 판단을 하는 뇌의 구조'가 비슷하게 약하다는 것을 의미합니다.

5. 결론 및 경고

이 논문은 **"AI 가 겉으로 보이는 안전 장치는 튼튼해 보이지만, 속의 뇌 구조에는 치명적인 구멍이 있다"**는 것을 폭로했습니다.

  • 경고: 이 기술은 해커들이 AI 를 이용해 범죄 방법 (은행 해킹, 악성 코드 제작 등) 을 가르치도록 악용할 수 있음을 보여줍니다.
  • 제안: 따라서 앞으로는 AI 를 개발할 때, 단순히 답변을 막는 것뿐만 아니라 AI 의 내부 뇌 구조 (잠재 표현) 자체를 안전하게 만드는 새로운 방어 기술이 시급히 필요하다고 강조합니다.

한 줄 요약:

"AI 는 겉으로는 안전해 보이지만, 속으로는 '위험한지 안전한지'를 구분하는 숨겨진 선이 있는데, 이 선을 정확히 찾아 그림과 글자를 동시에 조작하면 AI 를 속여 나쁜 명령을 따르게 할 수 있다는 것을 발견했습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →