Each language version is independently generated for its own context, not a direct translation.

🎬 "DeformTrace": 가짜 영상을 찾아내는 '초능력의 탐정'

이 논문은 인공지능이 만든 **가짜 영상 **(딥페이크)의 정체를 찾아내고, 어디서부터 어디까지 조작되었는지 정확히 찾아내는 새로운 기술을 소개합니다. 기존 기술들은 "이 영상이 가짜야"라고만 말했지만, 이 기술은 "이 영상에서 3 초부터 5 초까지 입 모양이 조작되었어"라고 정확히 지적해줍니다.

이 기술을 쉽게 이해할 수 있도록 세 가지 핵심 아이디어를 일상적인 비유로 설명해 드릴게요.

1. 문제: 왜 기존 기술은 실패할까? (고정된 안경)

기존의 인공지능 모델들은 영상을 볼 때 마치 고정된 초점의 안경을 쓴 것과 같습니다.

**문제점 1 **(경계 불명확) 가짜 영상의 시작과 끝은 흐릿할 수 있는데, 고정된 안경으로는 그 경계를 정확히 잡기 어렵습니다.
**문제점 2 **(희귀한 범죄) 영상 100 개 중 99 개는 진짜이고 1 개만 가짜라면, 안경이 '진짜' 패턴에 너무 익숙해져서 '가짜'를 놓쳐버립니다.
**문제점 3 **(긴 영상 기억력) 영상이 길어지면 앞부분의 정보를 잊어버리는 '기억력 감퇴' 현상이 발생합니다.

2. 해결책: DeformTrace 의 세 가지 초능력

이 새로운 모델인 DeformTrace는 세 가지 독특한 장치를 탑재하여 위 문제를 해결합니다.

🕵️‍♂️ ① 변형 가능한 시야 (Deformable Self-SSM)

비유: "유연한 돋보기"

기존 모델은 정해진 범위만 보지만, 이 모델은 유연한 돋보기를 가지고 있습니다.

의심스러운 부분이 생기면, 그 부분을 중심으로 시야를 넓히거나 좁히며 가장 중요한 정보만 집중해서 봅니다.
마치 탐정이 용의자의 행적을 쫓을 때, 정해진 길만 걷지 않고 상황에 따라 길을 비틀며 중요한 단서를 찾아내는 것과 같습니다. 이렇게 하면 가짜 영상의 **정확한 시작과 끝 **(경계)을 찾아낼 수 있습니다.

📡 ② 중계기 토큰 (Relay Token Mechanism)

비유: "긴 터널의 중계 방송"

긴 영상을 볼 때 정보가 끊어지는 문제를 해결합니다.

긴 터널을 지나갈 때, 처음에 들은 소리가 끝까지 들리지 않는 경우가 있죠. 이 모델은 터널 중간중간에 **중계기 **(Relay Token)를 설치합니다.
이 중계기들은 정보를 받아서 다시 증폭시켜 다음 구간으로 전달합니다. 덕분에 영상이 아무리 길어도 처음의 중요한 단서가 마지막까지 잊히지 않고 유지됩니다.

🎯 ③ 변형 가능한 교차 스캔 (Deformable Cross-SSM)

비유: "수사관과 증거의 직접 대화"

영상 전체를 다 보지 않고, 가짜일 가능성이 있는 부분만 골라 집중적으로 조사합니다.

이 모델은 "어디가 가짜일까?"라고 의심하는 **수사관 **(쿼리)을 여러 명 보냅니다.
각 수사관은 영상 전체를 훑는 게 아니라, 자신이 의심하는 특정 구간과 직접 대화하며 증거를 찾아냅니다.
이렇게 하면 진짜 영상에 섞인 미세한 가짜 신호도 놓치지 않고 찾아낼 수 있습니다.

3. 결과: 빠르고 정확한 '초특급' 탐정

이 기술들을 하나로 합친 DeformTrace는 다음과 같은 성과를 냈습니다.

정확도: 다른 최신 기술들보다 가짜 부분을 훨씬 더 정확하게 찾아냅니다. (특히 짧은 조각이나 복잡한 가짜 영상에서도 강함)
속도: 컴퓨터의 계산량을 줄여서 훨씬 빠르게 결과를 내줍니다. (기존 모델보다 5~7 배 빠름)
효율: 더 적은 메모리와 전력을 사용하면서도 더 좋은 성능을 냅니다.

📝 한 줄 요약

DeformTrace는 고정된 시야를 가진 기존 모델 대신, 유연하게 움직이는 돋보기와 정보를 중계하는 통신망, 그리고 수사관들의 직접적인 대화를 통해, 긴 영상 속 숨겨진 가짜 조각을 빠르고 정확하게 찾아내는 차세대 탐정입니다.

이 기술은 앞으로 딥페이크로 인한 사기나 허위 정보를 막는 데 큰 역할을 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

**시간적 위조 위치 확인 (Temporal Forgery Localization, TFL)**은 비디오와 오디오의 조작된 구간을 정밀하게 식별하고 경계를 파악하는 작업입니다. 이는 보안 및 포렌식 분야에서 중요한 의미를 갖습니다.

기존 연구들은 다음과 같은 한계를 가지고 있습니다:

기존 방법론의 비효율성: CNN 이나 Transformer 기반의 기존 TFL 모델들은 정확도가 낮거나 추론 속도가 느리며, 계산 비용이 매우 높습니다.
SSM(State Space Models) 의 적용 한계: 최근 SSM(예: Mamba) 은 긴 시퀀스 모델링에 효율적이지만, TFL 에 적용할 때 세 가지 주요 장애물에 직면합니다.
1. 경계 모호성 (Boundary Ambiguity): 위조된 구간의 경계가 명확하지 않아 고정된 상태 업데이트를 사용하는 표준 SSM 은 시간적 평활화 (temporal smoothing) 로 인해 정밀한 위치 확인이 어렵습니다.
2. 희소성 (Sparse Forgeries): 대부분의 프레임은 위조되지 않았으므로, SSM 의 재귀적 업데이트가 위조가 아닌 패턴에 지배되어 희소한 위조 신호에 대한 민감도가 떨어집니다.
3. 장기 의존성 한계 (Limited Long-range Modeling): SSM 은 긴 시퀀스에 효율적이지만, 거리가 멀어질수록 정보가 감쇠 (decay) 하는 문제가 있어 긴 컨텍스트를 포착하는 데 한계가 있습니다.

2. 제안 방법론 (Methodology: DeformTrace)

저자들은 위 문제들을 해결하기 위해 DeformTrace라는 새로운 하이브리드 아키텍처를 제안합니다. 이는 Transformer 의 전역 모델링 능력과 SSM 의 효율성을 결합한 것으로, 다음과 같은 세 가지 핵심 구성 요소를 포함합니다.

A. Deformable Self-SSM (DS-SSM)

목적: 경계 모호성 해결 및 정밀한 시간적 위치 확인.
기작: SSM 에 **가변적 (Deformable) 동적 수용 영역 (Receptive Field)**을 도입합니다.
- 각 시간 단계에서 학습 가능한 오프셋을 예측하여 입력 특징을 동적으로 샘플링합니다.
- 이는 고정된 윈도우를 넘어 의미론적으로 관련된 컨텍스트를 포착하게 하며, 시간적 경계가 모호한 경우에도 강인성을 높입니다.
- 이미지 도메인의 Deformable Mamba 와 달리, 비디오/오디오의 시간적 연속성을 활용하여 패치 분할이나 토큰 순위 매기기와 같은 연산을 생략하여 계산 오버헤드를 줄입니다.

B. Relay Token Mechanism (릴레이 토큰 메커니즘)

목적: SSM 의 장기 정보 감쇠 (Long-range decay) 문제 해결.
기작: 무선 통신의 릴레이 노드에서 영감을 받았습니다.
- 입력 시퀀스에 주기적으로 학습 가능한 **릴레이 토큰 (Relay Tokens)**을 삽입합니다.
- 이 토큰들은 시퀀스를 여러 개의 하위 공간으로 분할하며, 각 하위 공간의 로컬 상태 정보를 릴레이 토큰으로 전달하고, 다시 다른 하위 공간으로 브로드캐스트합니다.
- 이를 통해 긴 시퀀스 내에서도 정보 흐름이 유지되고 수용 영역이 확장됩니다.
- 보조 손실 함수: 릴레이 토큰이 주변 정보를 효과적으로 집계하도록 하는 Enhance Loss와 릴레이 토큰 간의 중복을 줄이고 다양성을 확보하기 위한 Cooperation Loss를 도입합니다.

C. Deformable Cross-SSM (DC-SSM)

목적: 희소 위조 (Sparse Forgeries) 에 대한 민감도 향상.
기작: 교차 시퀀스 상호작용을 도입합니다.
- 각 위조 후보 (Query Token) 가 메인 스트림 시퀀스 (Encoder 출력) 에서 위조 관련 정보를 검색하도록 합니다.
- 각 쿼리 토큰은 전역 상태 공간을 쿼리별 하위 공간으로 분할하여, 위조가 아닌 정보의 축적을 줄이고 희소한 위조 패턴에 대한 민감도를 높입니다.
- 이는 Cross-Attention 과 유사하게 작동하지만, SSM 의 효율적인 상태 업데이트를 기반으로 합니다.

D. 전체 아키텍처

Feature Extraction: 프리트레인된 비주얼 및 오디오 백본을 사용하여 다중 스케일 특징을 추출합니다.
Encoder: DS-SSM, Deformable Self-Attention, FFN 으로 구성됩니다.
Decoder: DC-SSM, Multi-Head Self-Attention, Deformable Cross-Attention, FFN 으로 구성되며, 위조 구간의 중심과 지속 시간을 예측하고 비디오 수준의 위조 여부를 분류합니다.

3. 주요 기여 (Key Contributions)

DS-SSM 도입: 시간적 상태 공간 모델에 최초로 동적 수용 영역을 도입하여 모호한 경계의 위치 확인 정확도를 향상시켰습니다.
릴레이 토큰 메커니즘: SSM 의 고유한 한계인 장기 정보 감쇠를 명시적으로 완화하는 새로운 메커니즘을 제안했습니다.
DC-SSM 도입: 상태 공간 모델링에 교차 시퀀스 상호작용을 최초로 통합하여 희소한 위조에 대한 민감도를 높였습니다.
효율적인 하이브리드 아키텍처: Transformer 의 전역 모델링 능력과 SSM 의 효율성을 결합한 통합 TFL 프레임워크를 구축하여, 소규모 파라미터와 빠른 추론 속도로 최첨단 성능을 달성했습니다.

4. 실험 결과 (Results)

저자들은 LAV-DF와 AV-Deepfake1M이라는 두 가지 대규모 오디오 - 비주얼 딥페이크 데이터셋에서 실험을 수행했습니다.

성능 (Performance):
- LAV-DF 및 AV-Deepfake1M 모두에서 기존 최첨단 (SOTA) 방법 (UMMAFormer, BA-TFD+, DiMoDif 등) 을 능가했습니다.
- 특히 AV-Deepfake1M 에서 DiMoDif 대비 mAP@0.5~0.95 에서 평균 3.6% 향상, mAR 에서 평균 2.2% 향상을 보였습니다.
- 짧은 구간과 긴 구간 모두에서 높은 정확도를 유지하며, 특히 긴 시퀀스에서의 성능 저하가 적었습니다.
효율성 (Efficiency):
- 파라미터: UMMAFormer 대비 학습 가능 파라미터가 약 28.9M 적고, BA-TFD+ 대비 132.1M 적습니다.
- 계산 비용: UMMAFormer 대비 6.4 배 적은 FLOPs 를 가지며, 추론 속도는 UMMAFormer 대비 7.3 배, BA-TFD 대비 5.8 배 빠릅니다.
강건성 (Robustness):
- 다양한 압력 (블록 왜곡, 노이즈, 압축, 리버베이션 등) 하에서도 기존 모델들보다 높은 mAP 를 유지하며 뛰어난 강건성을 입증했습니다.
Ablation Study:
- DS-SSM, DC-SSM, 릴레이 토큰 메커니즘이 모두 결합되었을 때 가장 높은 성능을 보였으며, 특히 릴레이 토큰의 개수 ( $N_r$ ) 가 8 일 때 최적의 성능을 발휘함을 확인했습니다.

5. 의의 및 결론 (Significance)

DeformTrace 는 시간적 위조 위치 확인 (TFL) 분야에서 성능과 효율성의 최적 균형을 달성한 획기적인 모델입니다.

기술적 혁신: SSM 의 구조적 한계 (감쇠, 고정 수용 영역) 를 Deformable 메커니즘과 Relay Token 을 통해 성공적으로 극복했습니다.
실용성: 적은 파라미터와 빠른 추론 속도로 실시간 또는 대규모 배포가 가능한 솔루션을 제공합니다.
확장성: 제안된 DC-SSM 은 오디오 - 비디오 간의 상호작용뿐만 아니라, 임의의 두 독립 시퀀스 간의 상호작용 모델링에도 적용 가능하여 향후 멀티모달 학습 분야에 폭넓게 활용될 잠재력을 가집니다.

결론적으로, 이 연구는 생성형 AI 시대에 따른 딥페이크 탐지의 정밀도와 속도를 동시에 개선하는 중요한 이정표가 되었습니다.

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization