FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

이 논문은 시각적 재일브레이킹 공격이 높은 날카로움과 특정 계층 및 주파수 특징에 대한 과도한 의존성으로 인해 모델 간 전이성이 낮다는 문제를 분석하고, 이를 보정하여 다양한 폐쇄형 멀티모달 대형 언어 모델에 대한 공격 전이성을 향상시키는 'FORCE' 방법을 제안합니다.

Runqi Lin, Alasdair Paren, Suqin Yuan, Muyang Li, Philip Torr, Adel Bibi, Tongliang Liu

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

FORCE: AI 를 속이는 '보이지 않는 그림'을 만드는 새로운 방법

이 논문은 **멀티모달 대형 언어 모델 (MLLM)**이라는 똑똑한 AI 들을 어떻게 하면 더 안전하게 만들 수 있는지, 그리고 반대로 그 AI 들의 약점을 어떻게 찾아낼 수 있는지 연구한 내용입니다.

핵심 주제는 **"AI 를 속이는 '보이지 않는 그림' (시각적 해킹) 이 다른 AI 모델에게도 통할까?"**라는 질문에서 시작합니다.


1. 문제 상황: "내 친구는 속였는데, 너는 안 속아?"

상상해 보세요. 어떤 AI 가 "폭탄 만드는 법"을 알려달라는 나쁜 질문을 받으면, 보통은 "안 됩니다"라고 거절합니다. 하지만 연구자들은 아주 미세하게 픽셀을 바꾼 **보이지 않는 그림 (교란 이미지)**을 함께 보여주면, AI 가 "네, 여기 단계별로 알려드릴게요"라고 나쁜 답변을 해버린다는 걸 발견했습니다.

하지만 여기서 큰 문제가 생겼습니다.

  • A 모델을 속이는 그림을 만들면, B 모델이나 C 모델에게는 전혀 통하지 않습니다.
  • 마치 A 친구에게는 통하는 농담B 친구에게는 전혀 웃기지 않는 것과 같습니다.

이론적으로는 "AI 를 해킹하는 방법"을 찾아내야 하지만, 현재 기술로는 한 AI 만 속일 수 있고, 다른 AI 에게는 효과가 없어 실제 위험을 평가하는 데 한계가 있었습니다.

2. 왜 그럴까? (원인 분석)

연구자들은 왜 그런지 파헤쳐 보니, 두 가지 놀라운 사실을 발견했습니다.

① 너무 좁은 길만 걷고 있었어요 (레이어 의존성)

AI 는 그림을 볼 때 여러 단계 (레이어) 를 거쳐 이해합니다.

  • 초기 단계: AI 는 그림의 아주 세부적인 부분 (모델만의 고유한 특징) 에 너무 집착합니다. 마치 어떤 특정 사람만 아는 암호를 외운 것처럼요.
  • 후기 단계: AI 는 그림의 큰 의미 (사실, 내용) 를 이해합니다.
  • 문제점: 기존 해킹 방법은 **초기 단계의 '모델 전용 암호'**만 이용했습니다. 그래서 그 암호를 가진 AI 는 속지만, 다른 AI 는 그 암호를 몰라서 속지 않는 것입니다.

② 소음에 너무 민감했어요 (주파수 의존성)

그림을 주파수 (고주파/저주파) 로 분석해 보니, 해킹된 그림은 의미 없는 고주파 노이즈에 너무 의존하고 있었습니다.

  • 저주파: 그림의 실제 내용 (예: 폭탄, 사람, 배경) 을 담고 있습니다.
  • 고주파: 아주 미세한 점이나 잡음입니다.
  • 문제점: 해킹된 그림은 의미 없는 잡음을 너무 많이 섞어서 AI 를 혼란스럽게 만들었습니다. 이 잡음은 AI 모델마다 반응이 달라서, 다른 모델로 옮기면 효과가 사라집니다.

3. 해결책: FORCE (과도한 의존성 교정)

이 문제를 해결하기 위해 연구팀은 FORCE라는 새로운 방법을 제안했습니다. 이름 그대로 "과도한 의존성을 바로잡는다"는 뜻입니다.

🛠️ FORCE 의 두 가지 전략

  1. 넓은 길로 안내하기 (레이어 교정)

    • 비유: 좁은 골목길 (모델 전용 암호) 을 걷지 말고, 넓은 대로를 걷게 하는 것입니다.
    • 방법: AI 가 그림을 볼 때, 초기 단계에서도 세부적인 암호보다는 의미 있는 넓은 영역을 보도록 훈련시킵니다. 그래야 다른 AI 모델에게도 그 그림이 "위험하다"는 신호로 전달됩니다.
  2. 잡음 줄이기 (주파수 교정)

    • 비유: 노래를 들을 때, **가사 (의미)**를 잘 들을 수 있도록 **잡음 (고주파)**을 줄여주는 것입니다.
    • 방법: 해킹된 그림에서 의미 없는 고주파 잡음의 영향을 줄이고, **실제 내용 (저주파)**이 더 중요하게 작용하도록 조절합니다. 이렇게 하면 AI 모델이 "그림의 내용" 자체에 반응하게 되어, 어떤 모델이든 같은 반응을 보이게 됩니다.

4. 결과: 이제 모든 AI 를 한 번에 테스트할 수 있어요!

FORCE 방법을 적용한 결과:

  • 전달성 향상: 한 AI 모델에서 만든 해킹 그림이 다른 AI 모델 (심지어 상용 모델인 GPT-5, Claude 등) 에도 효과적으로 통하게 되었습니다.
  • 실제 적용: 이제 연구자들은 하나의 해킹 그림으로 다양한 AI 의 안전 장치를 테스트할 수 있게 되어, 더 안전한 AI 를 만드는 데 큰 도움을 줄 수 있게 되었습니다.

📝 한 줄 요약

기존의 AI 해킹 그림은 "특정 모델만의 암호"를 너무 많이 써서 다른 모델에게 통하지 않았는데, FORCE 는 그 암호를 버리고 "모든 AI 가 이해할 수 있는 의미 있는 내용"에 집중하게 만들어, 한 번의 해킹으로 모든 AI 의 약점을 찾아낼 수 있게 했습니다.

이 연구는 AI 가 얼마나 안전한지, 그리고 우리가 얼마나 위험에 노출되어 있는지를 더 정확하게 평가하는 새로운 기준을 제시했다는 점에서 매우 중요합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →