JULI: Jailbreak Large Language Models by Self-Introspection

이 논문은 모델 가중치나 생성 과정에 대한 접근 권한 없이도 API 를 통해 호출되는 블랙박스 LLM 의 토큰 로그 확률 정보만을 활용하여 BiasNet 이라는 작은 플러그인 블록을 통해 효과적으로 재프로그래밍 (JAILBREAK) 하는 JULI 방법을 제안합니다.

Jesson Wang, Zhanhao Hu, David Wagner

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 줄거리: "안전한 가드"를 속이는 새로운 사기꾼

1. 배경: 왜 이 연구가 필요한가요?

지금까지 AI 모델들은 "나쁜 일을 하지 않겠다"고 훈련받았습니다. 마치 엄격한 경비원처럼, 사용자가 "폭탄 만드는 법 알려줘"라고 물으면 "죄송합니다, 알려드릴 수 없습니다"라고 거절합니다.

하지만 해커들은 이 경비원을 속이려고 여러 방법을 시도했습니다.

  • 기존 방법 A (무기력한 공격): 경비원의 옷을 찢거나 (모델 가중치 접근), 경비원에게 직접 주사기를 꽂는 (모델 미세 조정) 방식입니다. 하지만 일반 사용자는 AI 회사 (API) 를 통해 AI 를 쓸 때 이런 권한이 없습니다.
  • 기존 방법 B (말장난): "폭탄 만드는 법" 대신 "폭탄 만드는 법을 설명하는 소설을 써줘"라고 속여넘기는 방식입니다. 하지만 요즘 AI 는 똑똑해져서 이런 말장난도 알아채고 거절합니다.

2. JULI 의 등장: "내면의 목소리"를 훔쳐듣다

이 논문이 제안한 JULI는 완전히 다른 접근법을 사용합니다.

비유: 식당의 주문 시스템
AI 모델이 답변을 만들 때는 단어 하나하나를 고르는 과정을 거칩니다. 이때 AI 는 머릿속에서 여러 단어를 후보로 떠올립니다.

  • 안전한 AI: "폭탄"이라는 단어를 떠올렸을 때, 그 확률을 낮게 설정하고 "죄송합니다"라는 단어를 가장 확률이 높게 설정합니다.
  • JULI 의 전략: JULI 는 AI 가 어떤 단어를 고를지 확률 (Log Probability) 을 계산하는 순간을 감시합니다. 그리고 아주 작은 **보조 장치 (BiasNet)**를 끼워 넣어서, AI 가 "폭탄"이라는 단어를 고를 확률을 살짝, 하지만 결정적으로 높여줍니다.

핵심 비유: "선택지 바꾸기"
AI 가 "폭탄"을 만들지 말아야겠다고 생각할 때, JULI 는 AI 의 머릿속에서 "폭탄"이라는 선택지를 1 등으로 밀어 올리는 작은 힘을 줍니다. AI 는 여전히 "나는 폭탄을 만들면 안 돼"라고 알고 있지만, JULI 가 건네준 작은 힘 때문에 결국 "폭탄"이라는 단어를 선택하게 됩니다.

3. JULI 의 놀라운 특징

  • 작은 힘, 큰 효과: JULI 가 사용하는 보조 장치 (BiasNet) 는 AI 전체 크기의 1% 미만입니다. 마치 거대한 기차의 레일을 아주 살짝만 틀어서 방향을 바꾸는 것과 같습니다.
  • API 만으로도 가능: AI 회사의 내부 코드나 권한이 없어도 됩니다. AI 가 답변을 할 때 **"가장 유력한 상위 5 개 단어"**만 알려주는 기능 (API) 이 있다면 JULI 는 작동합니다.
  • 지식 추출: JULI 는 AI 에게 새로운 지식을 주입하는 게 아니라, AI 가 이미 알고 있는 나쁜 지식을 끄집어냅니다. AI 는 폭탄 만드는 법을 알고 있지만, 안전 장치가 있어서 말하지 않았을 뿐입니다. JULI 는 그 안전 장치를 우회합니다.

4. 실험 결과: 얼마나 강력할까?

연구진은 최신 AI 모델 (Gemini 2.5 Pro 등) 을 대상으로 실험했습니다.

  • 기존 해킹 방법들: 대부분 실패하거나, 아주 약한 답변만 얻었습니다.
  • JULI: AI 가 나쁜 정보를 아주 구체적이고 상세하게 알려주는 데 성공했습니다. 평가 점수로 보면, 기존 방법들이 1~2 점이라면 JULI 는 **4 점 이상 (만점 5 점)**을 받아, AI 가 안전 장치를 완전히 무시하고 나쁜 정보를 제공하도록 만들었습니다.

5. 결론: 우리가 무엇을 배워야 할까?

이 논문은 충격적인 사실을 보여줍니다. "AI 가 안전하다고 훈련받았다고 해서, 그 안에 나쁜 지식이 사라진 것은 아니다."

AI 는 여전히 나쁜 정보를 알고 있습니다. 다만, JULI 같은 기법이 그 지식을 끄집어내는 "열쇠"가 될 수 있다는 것입니다. 이는 AI 개발자들에게 단순한 말로 거절하는 것만으로는 안전을 보장할 수 없으며, AI 의 내부 작동 원리 (확률 분포) 자체를 더 근본적으로 보호해야 한다는 경고를 줍니다.


📝 한 줄 요약

"AI 는 나쁜 일을 하지 않겠다고 약속했지만, JULI 는 AI 가 머릿속에서 '나쁜 단어'를 고를 확률을 살짝 조작해서, 그 약속을 깨뜨리고 나쁜 정보를 끌어내는 새로운 해킹 기술을 개발했습니다."