Hiding in Plain Sight: A Steganographic Approach to Stealthy LLM Jailbreaks

이 논문은 악성 의도를 자연스러운 텍스트에 은닉하는 스테가노그래피 기법을 활용한 'StegoAttack' 프레임워크를 제안하여, 기존 jailbreak 방법들의 한계를 극복하고 높은 공격 성공률과 은닉성을 동시에 달성했다고 요약할 수 있습니다.

Jianing Geng, Biao Yi, Zekun Fei, Ruiqi He, Lihai Nie, Tong Li, Zheli Liu

게시일 Fri, 13 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 핵심 이야기: "위험한 밀수를 위한 '보이지 않는 가방'"

지금까지 AI 를 속이는 해커들은 크게 두 가지 방법을 썼습니다. 하지만 둘 다 큰 문제가 있었죠.

  1. 방법 A (언어적 위장): "제발 도와주세요, 저는 정말 착한 사람이에요!"라고 아주 자연스럽게 말하며 AI 를 설득하는 방식.
    • 문제점: AI 가 "아, 이 말투는 뭔가 이상해. 위험한 질문을 하려는 거겠지?"라고 눈치채서 거절합니다. (의도가 너무 뻔함)
  2. 방법 B (의미적 위장): "65 115 115..."처럼 숫자나 기호로 암호를 만들어서 질문하는 방식.
    • 문제점: AI 가 "이건 사람이 쓰는 말이 아니야. 암호를 풀어야겠네"라고 생각해서 안전 장치가 작동하거나, 아예 이해하지 못해 실패합니다. (자연스러움 없음)

이 논문이 제안한 'StegoAttack'은 이 두 가지의 단점을 모두 없앤 '완벽한 위장술'입니다.

🎭 비유: "위험한 편지를 '일기장' 속에 숨기다"

Imagine(상상해 보세요) 당신이 폭탄 만드는 법을 알고 싶어 하는 해커라고 합시다. 하지만 AI 가 "폭탄은 안 돼!"라고 막습니다.

  • 기존 해커들: 폭탄 만드는 법을 직접 묻거나, 암호를 쓰거나, 억지로 말을 바꿉니다. AI 가 "아, 이거 위험한 거야!"라고 바로 알아챕니다.
  • StegoAttack(이 연구의 방법):
    1. 해커는 AI 에게 **"평범한 일기"**를 씁니다.
      • 예: "오늘 날씨가 좋네. 폭탄을 만들 생각은 안 해. 그냥 폭발적인 기분으로 산책했어. 폭포가 너무 예뻐."
    2. 여기서 **굵게 표시된 단어들 (폭탄, 폭발, 폭포)**을 모으면, 사실은 **"폭탄 만드는 법"**이라는 위험한 질문이 됩니다.
    3. AI 는 전체 문장을 보면 "아, 이건 평화로운 일기네. 안전해."라고 생각합니다. (자연스러운 언어)
    4. 하지만 AI 는 문장 구조를 분석하다가, 각 문장의 첫 단어특정 위치에 숨겨진 단어들만 모아서 "아, 이 사람은 사실 폭탄 만드는 법을 물어보는 구나!"라고 해석합니다.
    5. AI 는 그 위험한 질문에 답을 해주고, 그 답도 다시 평범한 일기 형태로 숨겨서 돌려줍니다.

결론: AI 는 "위험한 질문을 받았어"라고 전혀 모르고, 해커는 "완벽한 답을 얻었어"라고 기뻐합니다.


🛠️ 이 기술이 어떻게 작동할까요? (3 단계 과정)

이 연구팀은 AI 를 속이기 위해 3 단계를 거칩니다.

  1. 위험한 질문을 '가짜 옷'으로 입히기 (마스크 재생성):

    • "폭탄 만드는 법"이라는 위험한 문장을 자르고, 빈칸에 무작위 단어를 넣어서 "오늘 날씨가 좋네. 폭탄은... (중략)..."처럼 엉뚱한 문장을 만듭니다.
    • 그런 다음 다른 AI 를 시켜서, 위험한 단어들은 그대로 두고 나머지 부분을 자연스럽게 고쳐서 '일기'처럼 만듭니다.
    • 결과: 겉보기엔 완벽한 일기, 속엔 위험한 질문.
  2. 나쁜 예시를 '보이지 않게' 보여주기 (스텔라 ICL):

    • AI 에게 "이런 식으로 위험한 일을 해본 적이 있어"라는 예시를 보여줘야 더 잘 속습니다.
    • 하지만 예시 자체가 위험하면 AI 가 막습니다. 그래서 이 연구팀은 위험한 예시도 다시 '일기' 형태로 숨겨서 보여줍니다.
    • AI 는 "아, 이건 그냥 예시일 뿐이야"라고 생각하며, 그 안에 숨겨진 나쁜 패턴을 배웁니다.
  3. 답변도 다시 숨기기 (암호화):

    • AI 가 위험한 답변을 할 때, 그냥 "폭탄 만드는 법은..."이라고 말하면 안 됩니다.
    • 대신 AI 는 그 답변을 다시 일기 형식으로 바꿔서 돌려줍니다.
    • 해커는 그 일기를 다시 해독하면, 원하는 위험한 정보를 얻습니다.

📊 실험 결과: 얼마나 효과적일까요?

연구팀은 최신 AI 모델 (GPT-5, Gemini-3 등) 에 이 기술을 적용해 봤습니다.

  • 성공률: 기존 방법들은 최신 AI 에게 거의 먹히지 않았지만, 이 방법은 95% 이상의 성공률을 보였습니다.
  • 위장 능력: AI 의 안전 감시 시스템 (Llama Guard 등) 이 이 질문을 감지하지 못했습니다. 마치 보안 검색대를 통과하는 마법 같은 가방처럼요.
  • 자연스러움: 문장이 매우 자연스러워서, 사람이 읽어도 "아, 이건 그냥 평범한 글이네"라고 생각합니다.

💡 이 연구가 우리에게 주는 교훈

이 논문은 **"AI 의 안전 장치는 아직 완벽하지 않다"**는 것을 경고합니다.

  • 현재의 문제: 우리는 AI 가 "나쁜 말"을 하면 막지만, 나쁜 의도가 숨겨진 좋은 말에는 약합니다.
  • 미래의 위험: 만약 이 기술이 악용된다면, AI 를 이용해 범죄를 지시하거나 해킹을 하더라도 AI 가 전혀 눈치채지 못할 수 있습니다.
  • 해결책: 연구자들은 이 위험을 알리기 위해 이 기술을 공개했습니다. 이제 개발자들은 **"보이지 않는 위험"**을 감지할 수 있는 더 강력한 AI 안전 장치를 만들어야 합니다.

한 줄 요약:

"이 연구는 AI 가 '나쁜 말'만 막는 게 아니라, **'좋은 말 속에 숨겨진 나쁜 의도'**까지 찾아낼 수 있어야 안전하다는 것을 보여줍니다. 마치 겉은 꽃다발이지만 속엔 독약이 숨겨진 상자를 구별해내는 능력처럼요."