On the Adversarial Robustness of Discrete Image Tokenizers

이 논문은 멀티모달 시스템에서 널리 사용되는 이산 이미지 토크나이저의 적대적 취약점을 최초로 규명하고, 라벨이 없는 데이터를 활용한 비지도 적대적 훈련을 통해 다양한 작업에서 강력한 방어 성능을 달성하는 방법을 제시합니다.

Rishika Bhagwatkar, Irina Rish, Nicolas Flammarion, Francesco Croce

게시일 2026-02-23
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"디지털 이미지를 이해하는 AI 의 '눈'이 얼마나 약한지, 그리고 어떻게 그 눈을 튼튼하게 만들 수 있는지"**에 대한 연구입니다.

비유하자면, 이 논문은 **AI 가 세상을 보는 '안경 (토크나이저)'**에 대한 이야기입니다.

1. 배경: AI 는 이미지를 어떻게 볼까요?

최근 AI(특히 텍스트와 이미지를 함께 다루는 모델) 는 이미지를 그대로 보지 않습니다. 대신 이미지를 **작은 조각들 (토크)**로 잘게 나누어, 마치 레고 블록이나 알파벳처럼 숫자 나열로 변환합니다.

  • 비유: 우리가 글을 읽을 때 '단어'를 보고 이해하듯, AI 도 이미지를 '숫자 나열 (토크)'로 변환해서 이해합니다. 이 변환기를 **'토크나이저 (Tokenizer)'**라고 부릅니다.

2. 문제: 안경에 '마법'을 부리면 AI 가 혼란에 빠집니다

연구진은 이 '안경 (토크나이저)'이 매우 취약하다는 것을 발견했습니다.

  • 공격의 원리: 공격자는 이미지의 픽셀을 아주 미세하게 (사람 눈에는 보이지 않게) 변형시킵니다.
  • 결과: 이 미세한 변화 때문에 AI 의 안경은 완전히 다른 숫자 나열을 읽게 됩니다.
    • 예시: "강아지" 사진에 아주 작은 노이즈를 넣으면, AI 는 그걸 "자동차"로 인식하거나, 심지어 "돈을 이체해 달라"는 위험한 문장을 만들어내게 됩니다.
  • 중요한 발견: 기존에는 AI 전체를 공격하려면 복잡한 계산이 필요했지만, 이 연구는 이미지를 숫자로 바꾸는 '안경' 부분만 공격하면 전체 시스템이 망가진다는 것을 증명했습니다. 마치 자동차의 엔진은 멀쩡해도, 운전자가 길을 잘못 읽는 내비게이션만 조작하면 차가 엉뚱한 곳으로 가는 것과 같습니다.

3. 해결책: '무작위 연습'으로 안경을 튼튼하게 만들기

이 취약점을 막기 위해 연구진은 **적대적 훈련 (Adversarial Training)**이라는 방법을 사용했습니다.

  • 기존 방식의 문제: 보통은 AI 에게 "이건 강아지야, 이건 고양이야"라고 **정답 (레이블)**을 알려주며 훈련시킵니다. 하지만 이 방법은 데이터가 많아야 하고, 특정 작업에만 특화됩니다.
  • 이 연구의 혁신 (무감독 훈련): 연구진은 정답 없이 훈련했습니다.
    • 비유: AI 안경에게 "이 이미지를 변형시켜봐. 변형된 이미지도 원래 이미지와 똑같은 '숫자 나열'로 읽히게 해봐!"라고 시켰습니다.
    • AI 는 수많은 변형된 이미지를 보며, 어떤 노이즈가 들어와도 원래 의미를 잃지 않도록 스스로 학습합니다.
    • 장점: 정답이 없어도 되므로, 인터넷에 떠도는 아무 이미지나 가져와서 훈련시킬 수 있습니다. 계산 비용도 훨씬 적게 듭니다.

4. 결과: 튼튼해진 안경은 모든 곳에서 통합니다

이렇게 훈련된 '튼튼한 안경 (Robust Tokenizer)'을 기존 AI 시스템에 끼워 넣자 놀라운 일이 일어났습니다.

  • 범용성: 이미지 분류, 검색, 그림 설명 (캡션) 등 어떤 일을 하든 공격에 훨씬 강해졌습니다.
  • 안전성: 해커가 "돈을 이체해 달라"는 위험한 문장을 만들어내려 해도, 튼튼해진 안경은 원래 이미지의 의미 (예: "산책 중인 강아지") 를 정확히 유지하며 위험한 출력을 막아냈습니다.
  • 효율성: 전체 AI 모델을 다시 훈련시킬 필요 없이, 이미지 변환기 부분만 업데이트하면 되므로 시간과 비용이 크게 절약됩니다.

요약

이 논문은 **"AI 가 이미지를 이해하는 첫 단계 (토크나이저) 가 매우 약하다"**는 사실을 처음 밝혀냈고, **"정답 없이도 이미지를 변형시키는 연습을 시키면, 그 첫 단계를 매우 튼튼하게 만들 수 있다"**는 방법을 제시했습니다.

이는 마치 가장 약한 고리인 '안경'을 튼튼하게 만들어, AI 가 속지 않고 안전하게 세상을 볼 수 있도록 만든 것과 같습니다. 앞으로 AI 가 우리 삶에 더 깊게 들어오기 때문에, 이런 '안전장치'는 매우 중요해집니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →