Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

이 논문은 M-Attack 의 한계를 극복하기 위해 다중 크롭 정렬, 보조 타겟 정렬, 패치 모멘텀 등을 도입한 M-Attack-V2 를 제안하여, 블랙박스 LVLM 공격의 성공률을 Claude-4.0 에서 8% 에서 30% 로, Gemini-2.5-Pro 에서 83% 에서 97% 로, GPT-5 에서 98% 에서 100% 로 획기적으로 향상시켰음을 보여줍니다.

Xiaohan Zhao, Zhaoyi Li, Yaxin Luo, Jiacheng Cui, Zhiqiang Shen

게시일 2026-02-20
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"최신 AI 이미지 인식 모델 (LVLM) 을 속이는 새로운 방법"**에 대한 연구입니다. 마치 마법사처럼 AI 가 보는 이미지를 살짝만 건드려서, AI 가 완전히 다른 것을 보게 만드는 기술이죠.

이전까지의 기술들도 꽤 강력했지만, 최신 AI 들은 너무 똑똑해서 속이기 어려웠습니다. 이 논문은 그걸 해결하기 위해 **"조금 더 정교하고 안정적인 방법"**을 개발했다고 합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제점: "흔들리는 나침반" (기존 기술의 한계)

과거의 공격 기술 (M-Attack) 은 AI 를 속이기 위해 이미지의 **작은 부분 (크롭)**을 잘라내서 분석했습니다. 하지만 이 방식에는 치명적인 문제가 있었습니다.

  • 비유: imagine you are trying to find a hidden treasure on a map using a compass. But every time you move your finger just a tiny bit (even a millimeter), the compass needle spins wildly in a completely different direction. You can't tell which way is North anymore.
  • 현실: AI 가 이미지를 볼 때, 아주 작은 부분만 바꿔도 AI 의 '뇌' (그래디언트) 가 완전히 다른 방향으로 반응합니다. 마치 나침반이 흔들려서 방향을 잃은 것처럼, AI 를 속이려는 시도가 매번 엉뚱한 곳으로 가게 되어 효율이 매우 떨어졌습니다.

2. 해결책: "M-Attack V2"의 세 가지 마법

저자들은 이 흔들림을 잡기 위해 세 가지 전략을 합쳤습니다.

① 여러 각도에서 보기 (Multi-Crop Alignment, MCA)

  • 비유: 한 번에 한 장의 사진만 보고 방향을 결정하는 대신, 동일한 장면을 10 개씩 여러 각도로 찍어서 평균을 내는 것입니다.
  • 효과: 한 각도에서 나침반이 흔들려도, 다른 9 개의 사진과 평균을 내면 진짜 방향 (올바른 공격 경로) 을 찾을 수 있게 됩니다. 이렇게 하면 AI 의 반응이 너무 극단적으로 변하는 것을 막아줍니다.

② 안전한 목표물 찾기 (Auxiliary Target Alignment, ATA)

  • 비유: AI 를 속이려는 '목표' (예: "이 사진은 고양이입니다"라고 말하게 만들기) 를 잡을 때, 너무 급하게 멀리 있는 목표물을 잡으려다 길을 잃는 대신, 주변에 비슷한 목표물들을 미리 준비해두고 그 사이를 부드럽게 이동하는 것입니다.
  • 효과: AI 가 혼란스러워하지 않도록, 공격 경로를 부드럽게 만들어줍니다.

③ 과거의 기억 활용하기 (Patch Momentum)

  • 비유: 길을 찾을 때, "아까 저기서 방향이 틀렸구나"라고 기억해두고 다음에 그 방향을 피하거나 보정하는 기억력을 쓰는 것입니다.
  • 효과: AI 가 한 번 실수한 경로를 반복해서 다시 시도하지 않게 도와주어, 더 빠르게 정확한 공격 지점에 도달하게 합니다.

3. 결과: "완벽한 속임수"

이 새로운 방법 (M-Attack V2) 을 적용하자 놀라운 결과가 나왔습니다.

  • GPT-5: 98% 성공률 → 100% 성공률 (거의 완벽하게 속임)
  • Gemini 2.5-Pro: 83% → 97%
  • Claude 4.0: 8% → 30% (이전에는 거의 불가능했던 수준에서 성공적으로 돌파)

가장 중요한 점은, 사람의 눈으로는 전혀 변한 게 보이지 않는다는 것입니다. AI 만이 속아 넘어가고, 인간은 "아무것도 안 변했네?"라고 생각할 정도로 자연스럽습니다.

4. 결론: 왜 이 연구가 중요한가요?

이 연구는 단순히 "AI 를 해킹하는 방법"을 알려주는 것뿐만 아니라, AI 가 어떻게 이미지를 보고 판단하는지 그 '뇌'의 약점을 찾아낸 것입니다.

  • 안전한 AI 만들기: 이렇게 AI 의 약점을 미리 찾아내면, 개발자들이 더 튼튼한 방어벽을 만들 수 있습니다. (마치 백신을 개발하기 위해 바이러스를 연구하는 것과 같습니다.)
  • 미래의 경고: 앞으로 AI 가 우리 생활 (의료, 보안, 뉴스 등) 에 더 깊게 들어갈수록, 이런 '보이지 않는 속임수'에 대한 대비가 필수적임을 보여줍니다.

한 줄 요약:

"AI 가 이미지를 볼 때 생기는 '눈의 떨림'을 여러 각도와 기억력으로 보정하여, 최신 AI 모델도 전혀 모르게 속이는 **완벽한 '보이지 않는 마법'**을 개발했습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →