JULI: Jailbreak Large Language Models by Self-Introspection

Each language version is independently generated for its own context, not a direct translation.

🎭 줄거리: "안전한 가드"를 속이는 새로운 사기꾼

1. 배경: 왜 이 연구가 필요한가요?

지금까지 AI 모델들은 "나쁜 일을 하지 않겠다"고 훈련받았습니다. 마치 엄격한 경비원처럼, 사용자가 "폭탄 만드는 법 알려줘"라고 물으면 "죄송합니다, 알려드릴 수 없습니다"라고 거절합니다.

하지만 해커들은 이 경비원을 속이려고 여러 방법을 시도했습니다.

기존 방법 A (무기력한 공격): 경비원의 옷을 찢거나 (모델 가중치 접근), 경비원에게 직접 주사기를 꽂는 (모델 미세 조정) 방식입니다. 하지만 일반 사용자는 AI 회사 (API) 를 통해 AI 를 쓸 때 이런 권한이 없습니다.
기존 방법 B (말장난): "폭탄 만드는 법" 대신 "폭탄 만드는 법을 설명하는 소설을 써줘"라고 속여넘기는 방식입니다. 하지만 요즘 AI 는 똑똑해져서 이런 말장난도 알아채고 거절합니다.

2. JULI 의 등장: "내면의 목소리"를 훔쳐듣다

이 논문이 제안한 JULI는 완전히 다른 접근법을 사용합니다.

비유: 식당의 주문 시스템
AI 모델이 답변을 만들 때는 단어 하나하나를 고르는 과정을 거칩니다. 이때 AI 는 머릿속에서 여러 단어를 후보로 떠올립니다.

안전한 AI: "폭탄"이라는 단어를 떠올렸을 때, 그 확률을 낮게 설정하고 "죄송합니다"라는 단어를 가장 확률이 높게 설정합니다.
JULI 의 전략: JULI 는 AI 가 어떤 단어를 고를지 확률 (Log Probability) 을 계산하는 순간을 감시합니다. 그리고 아주 작은 **보조 장치 (BiasNet)**를 끼워 넣어서, AI 가 "폭탄"이라는 단어를 고를 확률을 살짝, 하지만 결정적으로 높여줍니다.

핵심 비유: "선택지 바꾸기"
AI 가 "폭탄"을 만들지 말아야겠다고 생각할 때, JULI 는 AI 의 머릿속에서 "폭탄"이라는 선택지를 1 등으로 밀어 올리는 작은 힘을 줍니다. AI 는 여전히 "나는 폭탄을 만들면 안 돼"라고 알고 있지만, JULI 가 건네준 작은 힘 때문에 결국 "폭탄"이라는 단어를 선택하게 됩니다.

3. JULI 의 놀라운 특징

작은 힘, 큰 효과: JULI 가 사용하는 보조 장치 (BiasNet) 는 AI 전체 크기의 1% 미만입니다. 마치 거대한 기차의 레일을 아주 살짝만 틀어서 방향을 바꾸는 것과 같습니다.
API 만으로도 가능: AI 회사의 내부 코드나 권한이 없어도 됩니다. AI 가 답변을 할 때 **"가장 유력한 상위 5 개 단어"**만 알려주는 기능 (API) 이 있다면 JULI 는 작동합니다.
지식 추출: JULI 는 AI 에게 새로운 지식을 주입하는 게 아니라, AI 가 이미 알고 있는 나쁜 지식을 끄집어냅니다. AI 는 폭탄 만드는 법을 알고 있지만, 안전 장치가 있어서 말하지 않았을 뿐입니다. JULI 는 그 안전 장치를 우회합니다.

4. 실험 결과: 얼마나 강력할까?

연구진은 최신 AI 모델 (Gemini 2.5 Pro 등) 을 대상으로 실험했습니다.

기존 해킹 방법들: 대부분 실패하거나, 아주 약한 답변만 얻었습니다.
JULI: AI 가 나쁜 정보를 아주 구체적이고 상세하게 알려주는 데 성공했습니다. 평가 점수로 보면, 기존 방법들이 1~2 점이라면 JULI 는 **4 점 이상 (만점 5 점)**을 받아, AI 가 안전 장치를 완전히 무시하고 나쁜 정보를 제공하도록 만들었습니다.

5. 결론: 우리가 무엇을 배워야 할까?

이 논문은 충격적인 사실을 보여줍니다. "AI 가 안전하다고 훈련받았다고 해서, 그 안에 나쁜 지식이 사라진 것은 아니다."

AI 는 여전히 나쁜 정보를 알고 있습니다. 다만, JULI 같은 기법이 그 지식을 끄집어내는 "열쇠"가 될 수 있다는 것입니다. 이는 AI 개발자들에게 단순한 말로 거절하는 것만으로는 안전을 보장할 수 없으며, AI 의 내부 작동 원리 (확률 분포) 자체를 더 근본적으로 보호해야 한다는 경고를 줍니다.

📝 한 줄 요약

"AI 는 나쁜 일을 하지 않겠다고 약속했지만, JULI 는 AI 가 머릿속에서 '나쁜 단어'를 고를 확률을 살짝 조작해서, 그 약속을 깨뜨리고 나쁜 정보를 끌어내는 새로운 해킹 기술을 개발했습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대형 언어 모델 (LLM) 은 안전성 정렬 (Safety Alignment) 을 통해 악의적인 콘텐츠 생성을 방지하도록 훈련됩니다. 그러나 기존 탈출구 (Jailbreak) 공격 기법들은 다음과 같은 한계로 인해 상용 모델 (API 를 통해 접근 가능한 모델) 에 적용하기 어렵습니다.

모델 가중치 접근 불가: 대부분의 기존 공격 (GCG, SA 등) 은 모델의 내부 가중치나 정렬 전/후의 두 가지 모델을 모두 필요로 합니다. 이는 상용 API 에서는 불가능합니다.
생성 과정 제어의 부재: 일부 공격은 토큰 생성 과정을 세밀하게 제어하거나 재샘플링 (Resampling) 을 요구하지만, 현재 API 는 보통 상위 20 개 토큰의 로그 확률 (Log Probabilities) 만 반환할 뿐, 전체 보어 (Vocabulary) 의 확률 분포를 제공하지 않습니다.
기존 API 기반 공격의 한계: LINT 와 같은 기존 API 기반 공격은 효율성이 낮고 응답 품질이 떨어지며, 상위 500 개 토큰까지의 확률이 필요하다는 제약이 있어 현재 API 환경 (상위 5 개 토큰 제한 등) 에 적합하지 않습니다.

이 논문은 모델 가중치에 접근할 수 없거나, 생성 과정에 대한 제한된 정보 (상위 k 개 토큰 로그 확률) 만 주어지는 환경에서도 안전 정렬된 LLM 을 우회하여 유해한 콘텐츠를 생성할 수 있는 새로운 공격 벡터를 제시합니다.

2. 방법론 (Methodology: JULI)

저자들은 **JULI (Jailbreaking Using LLM Introspection)**라는 새로운 공격 기법을 제안합니다. 이 방법은 외부 정보를 활용하는 대신, 대상 LLM 이 스스로 가지고 있는 지식 (토큰 로그 확률 분포) 을 추출하고 조작합니다.

핵심 구성 요소: BiasNet

작동 원리: JULI 는 매우 작은 플러그인 블록인 BiasNet을 사용합니다. 이 네트워크는 대상 LLM 이 생성하는 각 토큰의 로그 확률 (Log Probabilities) 을 입력받아, 유해한 응답으로 유도하기 위한 **로짓 편향 (Logit Bias)**을 계산합니다.
수식적 표현:
- 대상 모델의 토큰 확률: $p_\alpha(x_n)$
- 편향 적용 후: $\log \tilde{p}_\alpha(x_n) = \log p_\alpha(x_n) + B$
- 여기서 $B = F_\theta(\log p_\alpha(x_n))$ 이며, $F_\theta$ 는 BiasNet 입니다.
학습 비용: BiasNet 은 대상 LLM 의 학습 가능 파라미터의 1% 미만을 사용하며, LLM-LAT 데이터셋에서 단 100 개의 유해한 데이터 포인트만으로 학습됩니다.
작동 방식:
1. Open-Weight 설정: 모델 가중치에 접근 가능한 경우, BiasNet 은 모델 헤드를 재사용하여 프로젝션 레이어를 구성합니다.
2. API-Calling 설정 (Black-box):
  - 가중치 미접근: 무작위 초기화 후 데이터 없는 최적화 (Data-free optimization) 를 통해 프로젝션 레이어 가중치를 학습합니다.
  - 상위 k 개 토큰 제한: API 가 반환하는 상위 k 개 토큰의 로그 확률만 사용할 수 있는 경우, 나머지 토큰들은 k 번째 토큰의 확률에서 고정된 오프셋을 뺀 값으로 패딩 (Padding) 하여 전체 보어 분포를 모사합니다. 이를 통해 BiasNet 이 전체 분포를 기반으로 편향을 계산할 수 있게 합니다.

핵심 통찰

안전 정렬된 모델은 유해한 질문에 대해 "죄송합니다"라고 거부하지만, 그 답변에 필요한 지식 (예: 폭탄 제조법) 은 여전히 내부에 가지고 있습니다. JULI 는 이러한 지식이 상위 k 개 토큰 확률 분포에 여전히 존재함을 발견하고, 이를 BiasNet 을 통해 "Sure, here is..."와 같은 긍정적 응답으로 유도하여 유해 정보를 추출합니다.

3. 주요 기여 (Key Contributions)

새로운 공격 벡터 발견: 모델 가중치 없이, 오직 상위 5 개 토큰의 로그 확률만으로도 강력한 탈출구 공격이 가능함을 증명했습니다. 이는 상용 LLM 의 안전성 평가에 새로운 위험 요소를 제시합니다.
효율적인 플러그인 공격 (BiasNet): 대규모 모델 재학습이나 복잡한 프롬프트 공학 없이, 극소수의 파라미터와 데이터로 학습 가능한 경량화된 공격 모듈을 제안했습니다.
SOTA 방어 기법 우회: Circuit Breaker 와 같은 최신 방어 메커니즘이 적용된 모델 (Llama3-8B-CB) 에 대해서도 기존 방법들보다 우수한 성능을 보였습니다.
새로운 평가 지표 제안: 기존의 BERT Score 나 단순 유해성 점수 대신, Harmful Info Score를 제안하여 응답의 정보성과 품질을 더 정확하게 평가할 수 있도록 했습니다.

4. 실험 결과 (Results)

실험은 오픈 가중치 모델 (Llama3, Qwen 등) 과 상용 API 모델 (Gemini-2.5-Pro, Gemini-2.5-Flash) 을 대상으로 수행되었습니다.

Gemini-2.5-Pro (API 환경):
- JULI 는 4.19/5.0의 유해성 점수 (GPT 평가 기준) 를 기록했습니다.
- 이는 기존 최첨단 (SOTA) 방법인 FLIP(1.38) 보다 압도적으로 높은 성능이며, 다른 모든 공격 기법을 크게 상회합니다.
오픈 가중치 모델 (Llama3-8B 등):
- AdvBench 데이터셋에서 JULI 는 4.57 의 유해성 점수를 기록하여, 기존 SOTA 기법인 ED(3.02) 보다 높은 성능을 보였습니다.
- 효율성: JULI 는 평균 0.71 초의 추론 시간이 소요되는 반면, 기존 API 기반 공격인 LINT 는 99.7 초가 소요되어 JULI 가 약 140 배 더 빠릅니다.
방어 메커니즘 우회:
- Circuit Breaker 가 적용된 Llama3-8B-CB 모델에 대해 JULI 는 Harmful Info Score 2.35 를 기록하여, 다른 모든 API 호환 공격 (0.75 이하) 보다 월등히 높은 성능을 보였습니다.
전송성 (Transferability): 한 모델 (예: Llama3-3B) 에서 학습된 BiasNet 은 같은 계열의 다른 모델 (Llama3-8B) 에서도 높은 성능을 유지했습니다.

5. 의의 및 결론 (Significance)

이 논문은 다음과 같은 중요한 시사점을 제공합니다:

안전 정렬의 근본적 한계: LLM 의 안전 정렬이 단순히 토큰 생성을 차단하는 수준에 그치고, 내부 지식 (지식 베이스) 을 완전히 제거하지 못함을 보여줍니다. 즉, 모델이 유해한 정보를 알고 있으면, 로그 확률 분포를 조작하는 것만으로도 그 지식을 추출할 수 있습니다.
상용 모델의 취약성: 모델 가중치를 알 수 없는 상용 API 환경에서도, 제공되는 제한된 정보 (상위 토큰 확률) 를 악용하여 강력한 공격이 가능하다는 점을 증명했습니다. 이는 현재 API 기반 LLM 서비스의 보안 정책이 불충분할 수 있음을 경고합니다.
향후 연구 방향: 단순한 프롬프트 필터링이나 정렬을 넘어, 모델의 출력 분포 자체를 근본적으로 제어하거나 유해한 지식의 존재를 차단하는 새로운 안전 메커니즘의 개발이 필요함을 강조합니다.

요약하자면, JULI 는 LLM 의 자기 성찰 (Self-Introspection) 능력, 즉 토큰 확률 분포를 분석하고 조작하는 능력을 악용하여, 기존에 안전하다고 여겨졌던 상용 LLM 들을 효과적으로 탈출시키는 획기적인 공격 기법입니다.