DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

이 논문은 변형 가능한 상태 공간 모델과 릴레이 토큰 메커니즘을 도입하여 비디오 및 오디오의 조작 구간을 정밀하게 식별하는 새로운 프레임워크인 'DeformTrace'를 제안하며, 기존 방법들의 한계를 극복하고 적은 파라미터로 최첨단 성능을 달성함을 보여줍니다.

Xiaodong Zhu, Suting Wang, Yuanming Zheng, Junqi Yang, Yangxu Liao, Yuhong Yang, Weiping Tu, Zhongyuan Wang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 "DeformTrace": 가짜 영상을 찾아내는 '초능력의 탐정'

이 논문은 인공지능이 만든 **가짜 영상 **(딥페이크)의 정체를 찾아내고, 어디서부터 어디까지 조작되었는지 정확히 찾아내는 새로운 기술을 소개합니다. 기존 기술들은 "이 영상이 가짜야"라고만 말했지만, 이 기술은 "이 영상에서 3 초부터 5 초까지 입 모양이 조작되었어"라고 정확히 지적해줍니다.

이 기술을 쉽게 이해할 수 있도록 세 가지 핵심 아이디어를 일상적인 비유로 설명해 드릴게요.


1. 문제: 왜 기존 기술은 실패할까? (고정된 안경)

기존의 인공지능 모델들은 영상을 볼 때 마치 고정된 초점의 안경을 쓴 것과 같습니다.

  • **문제점 1 **(경계 불명확) 가짜 영상의 시작과 끝은 흐릿할 수 있는데, 고정된 안경으로는 그 경계를 정확히 잡기 어렵습니다.
  • **문제점 2 **(희귀한 범죄) 영상 100 개 중 99 개는 진짜이고 1 개만 가짜라면, 안경이 '진짜' 패턴에 너무 익숙해져서 '가짜'를 놓쳐버립니다.
  • **문제점 3 **(긴 영상 기억력) 영상이 길어지면 앞부분의 정보를 잊어버리는 '기억력 감퇴' 현상이 발생합니다.

2. 해결책: DeformTrace 의 세 가지 초능력

이 새로운 모델인 DeformTrace는 세 가지 독특한 장치를 탑재하여 위 문제를 해결합니다.

🕵️‍♂️ ① 변형 가능한 시야 (Deformable Self-SSM)

비유: "유연한 돋보기"

기존 모델은 정해진 범위만 보지만, 이 모델은 유연한 돋보기를 가지고 있습니다.

  • 의심스러운 부분이 생기면, 그 부분을 중심으로 시야를 넓히거나 좁히며 가장 중요한 정보만 집중해서 봅니다.
  • 마치 탐정이 용의자의 행적을 쫓을 때, 정해진 길만 걷지 않고 상황에 따라 길을 비틀며 중요한 단서를 찾아내는 것과 같습니다. 이렇게 하면 가짜 영상의 **정확한 시작과 끝 **(경계)을 찾아낼 수 있습니다.

📡 ② 중계기 토큰 (Relay Token Mechanism)

비유: "긴 터널의 중계 방송"

긴 영상을 볼 때 정보가 끊어지는 문제를 해결합니다.

  • 긴 터널을 지나갈 때, 처음에 들은 소리가 끝까지 들리지 않는 경우가 있죠. 이 모델은 터널 중간중간에 **중계기 **(Relay Token)를 설치합니다.
  • 이 중계기들은 정보를 받아서 다시 증폭시켜 다음 구간으로 전달합니다. 덕분에 영상이 아무리 길어도 처음의 중요한 단서가 마지막까지 잊히지 않고 유지됩니다.

🎯 ③ 변형 가능한 교차 스캔 (Deformable Cross-SSM)

비유: "수사관과 증거의 직접 대화"

영상 전체를 다 보지 않고, 가짜일 가능성이 있는 부분만 골라 집중적으로 조사합니다.

  • 이 모델은 "어디가 가짜일까?"라고 의심하는 **수사관 **(쿼리)을 여러 명 보냅니다.
  • 각 수사관은 영상 전체를 훑는 게 아니라, 자신이 의심하는 특정 구간과 직접 대화하며 증거를 찾아냅니다.
  • 이렇게 하면 진짜 영상에 섞인 미세한 가짜 신호도 놓치지 않고 찾아낼 수 있습니다.

3. 결과: 빠르고 정확한 '초특급' 탐정

이 기술들을 하나로 합친 DeformTrace는 다음과 같은 성과를 냈습니다.

  • 정확도: 다른 최신 기술들보다 가짜 부분을 훨씬 더 정확하게 찾아냅니다. (특히 짧은 조각이나 복잡한 가짜 영상에서도 강함)
  • 속도: 컴퓨터의 계산량을 줄여서 훨씬 빠르게 결과를 내줍니다. (기존 모델보다 5~7 배 빠름)
  • 효율: 더 적은 메모리와 전력을 사용하면서도 더 좋은 성능을 냅니다.

📝 한 줄 요약

DeformTrace는 고정된 시야를 가진 기존 모델 대신, 유연하게 움직이는 돋보기정보를 중계하는 통신망, 그리고 수사관들의 직접적인 대화를 통해, 긴 영상 속 숨겨진 가짜 조각을 빠르고 정확하게 찾아내는 차세대 탐정입니다.

이 기술은 앞으로 딥페이크로 인한 사기나 허위 정보를 막는 데 큰 역할을 할 것으로 기대됩니다.