ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models

이 논문은 생성형 아티팩트와 고주파 노이즈가 주로 배경에 존재한다는 점을 고려하여, 의미 중심이 아닌 포렌식 증거 보존에 초점을 맞춘 학습 불필요 토큰 압축 프레임워크 'ForensicZip'을 제안하고, 이를 통해 연산량을 90% 이상 줄이면서도 최첨단 탐지 성능을 유지함을 입증했습니다.

Yingxin Lai, Zitong Yu, Jun Wang, Linlin Shen, Yong Xu, Xiaochun Cao

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: "수사관이 너무 많은 증거를 다 보려고 하다 보니 지쳐버렸다"

최근 AI(멀티모달 대형 언어 모델) 는 사진이나 영상을 보고 "이건 가짜야, 저 부분이 이상해"라고 설명할 수 있게 되었습니다. 하지만 고해상도 사진이나 긴 영상을 분석하려면, AI 는 이미지 속 작은 조각들(토큰) 수만 개를 하나하나 살펴봐야 합니다.

  • 비유: 마치 수사관이 100 만 장의 사진첩을 모두 펼쳐서 하나하나 눈으로 확인해야 하는 상황입니다.
  • 문제점: 이 과정에서 컴퓨터는 너무 많은 에너지를 써서 느려지고, 중요한 단서가 놓칠 수도 있습니다.

🗑️ 2. 기존 방법의 실수: "눈에 띄는 것만 남기고 나머지는 다 버렸다"

기존에 이 문제를 해결하기 위해 만든 방법들은 **"중요한 것만 남기고 나머지는 버리자"**는 아이디어였습니다. 하지만 여기서 큰 실수가 있었습니다.

  • 기존 방법의 논리: "사람 얼굴이나 사물처럼 눈에 확 띄는 (의미 있는) 부분만 남기고, 배경이나 평평한 부분은 다 버리자."
  • 실제 상황: 가짜 영상이나 사진의 **진짜 단서 (조작 흔적)**는 대부분 눈에 띄지 않는 배경의 미세한 노이즈부자연스러운 경계선에 숨어 있습니다.
  • 결과: 기존 방법은 "눈에 띄는 사물"은 잘 보존했지만, **"가짜를 판별하는 중요한 단서"**가 있는 배경을 "쓸데없는 것"으로 오인해서 버려버렸습니다. 마치 범인의 지문은 다 지우고, 범인이 서 있던 바닥의 흙만 남긴 꼴이 된 것입니다.

✨ 3. ForensicZip 의 해결책: "눈에 띄지 않는 '비정상'을 잡는 새로운 수사관"

이 논문에서 제안한 ForensicZip은 완전히 다른 관점을 가집니다. "무엇이 중요한가?"가 아니라, **"무엇이 '자연스럽지 않은가'?"**에 집중합니다.

🚀 핵심 아이디어 1: "시간 여행자의 시선" (Birth-Death Optimal Transport)

AI 는 영상을 볼 때 프레임 (장면) 을 하나씩 봅니다. 자연스러운 영상은 장면이 넘어갈 때 물리 법칙을 따릅니다. 하지만 가짜 영상은 갑자기 무언가가 생기거나 (Birth), 사라지거나 (Death) 합니다.

  • 비유: 시간 여행자가 과거와 현재를 비교할 때, "어제 없던 물건이 오늘 갑자기 생겼다"거나 "어제 있던 물건이 오늘 갑자기 사라졌다"는 것을 감지하는 것입니다.
  • ForensicZip 의 역할: 기존 방법은 "이 두 장면을 비슷하게 매칭해라"라고 강요했지만, ForensicZip 은 "매칭할 수 없는 이상한 것 (생성된 아티팩트)"을 과감하게 '새로 생긴 것'이나 '사라진 것'으로 분류합니다. 이렇게 하면 눈에 보이지 않던 미세한 조작 흔적을 확실히 찾아낼 수 있습니다.

📡 핵심 아이디어 2: "고주파수 탐지기" (High-Frequency Priors)

가짜로 만든 이미지는 자연스러운 사진과 달리 미세한 고주파수 잡음이나 경계선의 뻣뻣함을 가지고 있습니다.

  • 비유: 고음질 오디오에서 잡음을 걸러내는 필터처럼, AI 는 "매끄러운 자연스러운 부분"보다는 **"거칠고 불규칙한 부분"**을 의심합니다.
  • 결합: ForensicZip 은 "시간적으로 갑자기 변한 것 (Birth/Death)"과 "공간적으로 거친 것 (고주파수)"이 동시에 있는 부분만 골라냅니다.

🏆 4. 결과: "90% 를 버려도 99% 의 정확도"

이 기술을 적용한 결과 놀라운 성과가 나왔습니다.

  • 속도: 원래 이미지 데이터의 10% 만 남기고 90% 를 버려도 (토큰 10% 유지), AI 는 거의 3 배 더 빠르게 작동합니다.
  • 정확도: 기존 방법들은 데이터를 90% 줄이면 성능이 뚝 떨어졌지만, ForensicZip 은 가장 중요한 '수사 단서'만 남겼기 때문에 오히려 성능이 유지되거나 더 좋아졌습니다.
  • 메모리: 컴퓨터 메모리 사용량도 90% 이상 줄어듭니다.

📝 요약: 한 문장으로 정리하면?

"기존 AI 는 '눈에 띄는 사물'만 보고 가짜를 찾으려다 실패했지만, ForensicZip 은 '자연스럽지 않게 갑자기 변한 흔적'과 '거친 미세한 결'을 찾아내는 특화된 수사관으로 변신하여, 데이터를 90% 줄여도 훨씬 빠르고 정확하게 가짜를 찾아냅니다."

이 기술은 앞으로 AI 가 고해상도 영상이나 긴 동영상을 실시간으로 분석할 때, 속도와 정확도라는 두 마리 토끼를 모두 잡는 열쇠가 될 것입니다.