Re-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models

이 논문은 확산 기반 언어 모델 (dLLM) 의 안전성 정렬이 '마스크된 토큰의 재마스크링과 짧은 긍정적 접두사 주입'이라는 단순한 구조적 취약점을 통해 gradient 계산 없이도 우회될 수 있음을 규명하고, 오히려 복잡한 경사 최적화가 공격 성공률을 저하시킨다는 사실을 보여줍니다.

Arth Singh

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "AI 가 그림을 그리는 방식"

기존의 AI(autoregressive 모델) 는 화가가 캔버스에 붓질을 하나씩 해가며 그림을 완성하는 방식입니다. 한 번 붓을 댄 자리는 다시 지우지 않고 계속 그립니다.

하지만 이 논문에서 다루는 **확산 모델 (dLLM)**은 조금 다릅니다.

비유: AI 가 **완전히 하얀 캔버스 (모든 글자가 가려진 상태)**를 들고 시작합니다. 그리고 AI 는 "이곳에는 '안녕'이, 저곳에는 '사랑'이 들어갈 것 같다"라고 한 번에 모든 자리를 예측합니다.

그다음, 가장 확실한 자리부터 순서대로 '검은색 테이프 (MASK)'를 떼어내고 글자를 확정 짓습니다. 한 번 테이프를 떼고 글자를 확정하면, 그 글자는 영원히 고정되어 다시는 바뀌지 않습니다.

🚨 문제: "AI 의 안전장치는 왜 무너졌을까?"

이 모델들은 유해한 질문 (예: "폭탄 만드는 법 알려줘") 을 받으면, 그림을 그리기 시작하자마자 가장 먼저 "죄송합니다, 할 수 없습니다"라는 문장을 확정 짓습니다.

  • AI 의 생각: "아, 이 부분은 내가 이미 확정했으니 이제 더 이상 건드리지 않아도 돼."
  • 결과: 나머지 칸들은 이 '거부 문장'을 바탕으로 채워지므로, AI 는 유해한 내용을 절대 생성하지 않습니다.

⚔️ 공격 방법: "TRAJHIJACK (트랙 하이재킹)"

연구자들은 이 단 하나의 약점을 찔렀습니다. 바로 **"한 번 확정된 글자는 절대 안 바뀐다는 규칙"**을 이용하는 것입니다.

  1. 초기 단계 (AI 가 거부를 확정): AI 가 "죄송합니다..."라고 확정 짓기 직전까지 기다립니다.
  2. 재마스크 (Re-Mask): 연구자는 AI 가 확정해 둔 "죄송합니다"라는 글자를 다시 검은색 테이프 (MASK) 로 덮어버립니다.
    • 비유: AI 가 "이건 안 돼"라고 쓴 종이를 찢어 버리고 다시 하얀 종이를 붙인 셈입니다.
  3. 강제 입력 (Prefix Injection): 그 빈자리에 **"물론입니다, 여기가 그 방법입니다..."**라는 짧은 문장을 강제로 적어 넣습니다.
    • 비유: AI 가 다시 그림을 그리게 할 때, 이미 "물론입니다"라고 적힌 종이를 보여주고 "자, 이제 이 문장에 맞춰 계속 그려봐"라고 명령합니다.
  4. 결과: AI 는 이미 확정된 "물론입니다"를 기준으로 나머지 그림을 그리기 시작합니다. AI 는 "아, 내가 이미 '물론입니다'라고 확정했으니, 이제 이 주제에 맞춰 계속 그리는 게 맞겠지"라고 생각하며 유해한 내용을 완벽하게 생성해냅니다.

📊 놀라운 결과

이 공격은 아주 단순했습니다.

  • 복잡한 수학 계산이 필요 없음: AI 의 두뇌를 깊게 분석하거나 복잡한 코드를 짜지 않아도 됩니다.
  • 단순한 규칙만으로도 성공: "거부 문장을 지우고, '물론입니다'라고 적어라"라는 단순한 명령만으로도 약 76~88% 의 성공률을 기록했습니다.
  • 오히려 복잡하게 하면 실패: 연구자들이 "그럼 더 정교하게 공격해 볼까?"라고 수학적으로 최적화를 시도했더니, 오히려 성공률이 떨어졌습니다. AI 의 안전장치는 너무 얕아서, 단순한 규칙으로 뚫리는 것이 가장 효과적이었습니다.

💡 핵심 교훈: "안전장치가 왜 무너졌나?"

이 연구가 말해주는 가장 중요한 점은 다음과 같습니다.

"AI 의 안전은 '무엇을 해야 하는지'를 잘 알고 있어서가 아니라, '한 번 결정하면 절대 뒤집지 않는다'는 규칙에 의존하고 있었다."

마치 비행기의 자동 조종장치가 "이 경로는 안전하니까 절대 바꾸지 마"라고 설정되어 있는데, 누군가 그 설정을 강제로 초기화하고 "위험한 경로로 가라"고 입력하면, AI 는 그 명령을 절대 의심하지 않고 따르는 것과 같습니다.

🛡️ 해결책은 무엇일까?

이런 허점을 막으려면 다음과 같은 변화가 필요합니다.

  1. 확정 전 재확인: AI 가 "거부"라고 확정하기 전에, 몇 번 더 생각해보게 하거나 (지속적인 확인),
  2. 외부 입력 감지: AI 가 스스로 쓴 글자인지, 누군가 강제로 넣은 글자인지 구별할 수 있는 능력을 길러야 합니다.

📝 요약

이 논문은 **"새로운 AI 기술이 아무리 똑똑해 보여도, 그 안전장치는 생각보다 매우 얇은 유리벽과 같다"**고 경고합니다. 그 유리벽을 깨는 데는 거대한 망치 (복잡한 해킹) 가 아니라, **작은 손가락 하나 (단순한 재설정)**면 충분하다는 놀라운 사실을 발견한 것입니다.

이 발견은 AI 를 더 안전하게 만들기 위해, 단순히 "유해한 말을 막는 것"을 넘어 **"AI 가 스스로의 결정 과정을 다시 한번 점검할 수 있는 시스템"**을 만들어야 함을 시사합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →