매우 독점적인 클럽의 경비원이 되어 본다고 상상해 보세요. 당신의 임무는 위조 신분증을 찾아내는 것입니다. 수년 동안 당신은 특정 프린터가 남기는 특정 번짐이나 잉크 얼룩을 찾아내도록 훈련받아 왔습니다 (이것이 "구형" 딥페이크 생성기입니다). 하지만 이제 번짐을 전혀 남기지 않는 새로운 초지능 프린터가 등장했습니다. 이 프린터는 완벽하고 초현실적인 신분증을 인쇄합니다. 당신의 오래된 훈련은 완전히 실패합니다. 당신이 잘못된 단서를 찾고 있었기 때문입니다.

이 논문은 새로운 세대의 "초감각"을 테스트하여 모든 새로운 프린터마다 재훈련을 받지 않고도 이러한 완벽한 위조품을 찾아낼 수 있는지 확인하는 연구팀의 보고서와 같습니다.

문제: "지문"의 함정

전통적인 보안 시스템 (구형 AI 탐지기) 은 한 범죄자의 특정 지문을 외운 형사와 같습니다. 지문이 다른 새로운 범죄자가 나타나면 형사는 혼란에 빠지고 실패합니다. AI 세계에서는 이러한 탐지기들이 오래된 위조 이미지 제작자가 남긴 작고 구체적인 오류에 "고착"되어 새로운 유형의 위조품을 인식하지 못합니다.

해결책: "초감각" (비전 기반 모델)

연구팀은 위조품을 탐지하도록 가르친 것이 아니라, "무엇을 보는지 설명할 수 있는가?"라고 묻고 실제 얼굴과 위조 얼굴을 구별할 수 있는지 확인하기 위해 매우 간단하고 빠른 테스트 ("선형 프로브") 를 적용하여, 이미 수십억 장의 사진을 통해 세상을 이해하는 법을 배운 거대한 AI 두뇌인 세 가지 다른 유형의 "초감각" (비전 기반 모델) 을 테스트하기로 결정했습니다.

그들은 세 가지 다른 "초감각"을 테스트했습니다:

엄격한 교사 (RoPE-ViT): 이 모델은 "고양이"나 "개"가 정확히 어떻게 생겼는지 외우게 하는 엄격한 교사에게 훈련받았습니다. 크고 뚜렷한 형태를 인식하는 데는 뛰어나지만 미세한 세부 사항은 놓칠 수 있습니다.
스스로 배운 탐험가 (DINOv3): 이 모델은 교사 없이 수백만 장의 사진을 보며 스스로 사물들이 어떻게 연결되는지 파악했습니다. 기하학적 구조와 빛이 얼굴에 어떻게 닿는지를 이해하는 데 매우 뛰어납니다.
모든 것을 아는 사서 (NVIDIA C-RADIOv4-H): 이는 세 명의 교사를 동시에 경청한 거대한 두뇌입니다. 한 교사는 형태를, 한 교사는 단어를, 또 한 교사는 가장자리와 윤곽을 가르쳤습니다. 이 모델은 모든 것을 동시에 이해하려 합니다.

테스트: "DF40" 챌린지

연구팀은 이 초감각들을 DF40이라는 거대한 챌린지를 통해 테스트했습니다. 이 챌린지는 두 가지 매우 다른 유형의 위조 얼굴을 포함하고 있습니다:

"완전한 새로운 사람" 위조품: AI 가 (MidJourney 나 DALL-E 와 같이) 처음부터 전체 얼굴을 생성한 이미지입니다.
"얼굴 교체" 위조품: 얼굴의 일부만 편집되거나 교체된 (눈이나 입을 바꾸는 등) 이미지입니다.

그들이 발견한 것

1. 전체 얼굴이 위조된 경우 ("완전한 새로운 사람" 테스트):
결과는 인상적이었습니다. "모든 것을 아는 사서"와 "엄격한 교사"가 훌륭한 성과를 거두었습니다. 이러한 위조품들은 전체적인 왜곡 (전체 얼굴이 약간 "어색함") 을 가지고 있기 때문에 초감각들이 쉽게 찾아낼 수 있었습니다. 군중 속에서 인형 하나를 찾아내는 것과 같았습니다. 전체 형태가 잘못되었기 때문에 AI 는 그것이 위조품임을 알았습니다.

2. 일부만 위조된 경우 ("얼굴 교체" 테스트):
이 부분이 까다로웠습니다. 연구자들이 얼굴의 일부만 편집된 위조품 (StyleCLIP 같은 도구 사용) 으로 AI 를 테스트했을 때, 대부분의 초감각들이 무너졌습니다.

실패: "엄격한 교사"와 "스스로 배운 탐험가"는 기본적으로 포기하고 무작위로 추측했습니다. 그들은 전체적인 그림에 너무 집중하여 작고 국소적인 편집을 놓쳤습니다.
생존자: "모든 것을 아는 사서" (NVIDIA C-RADIOv4-H) 만이 버텨냈습니다. 가장자리와 윤곽에 주의를 기울이도록 훈련받았기 때문에 (책등이 정확히 어디에 있는지 아는 사서처럼), 나머지 얼굴이 완벽해 보일지라도 얼굴이 편집된 미세한 이음새를 여전히 찾아낼 수 있었습니다.

3. "흐린 사진" 문제:
연구자들은 또한 주요 약점을 발견했습니다. 위조 이미지가 AI 의 시야에 맞춰 늘려지기 전에 매우 낮은 해상도 (작고 흐릿함) 였다면, 거의 모든 초감각들이 실패했습니다. 픽셀화될 정도로 늘려진 사진에서 위조를 찾아내려는 것과 같습니다. 단서가 씻겨 나가기 때문입니다. "주파수" (라디오 튜너와 같은) 를 보도록 설계된 특정 도구는 여기서 잘 작동했지만, 거대한 초감각들은 어려움을 겪었습니다.

결론

이 논문은 거대하고 사전 훈련된 AI 두뇌가 강력하지만 아직 만능 해결책은 아니라고 결론 내립니다.

그들은 전체 얼굴이 위조된 창작물을 찾아내는 데 탁월합니다.
하지만 실제 얼굴에 작고 국소적인 편집이 가해진 위조품은 어려워합니다.
"모든 것을 아는 사서" (다중 교사 모델) 가 현재 가장 견고하며, 아마도 가장자리, 형태, 단어 등 여러 각도에서 세상을 동시에 보도록 배웠기 때문일 것입니다.

간단히 말해: 완전히 새로운 사람처럼 보이는 위조품을 잡으려면 이러한 초감각들이 훌륭합니다. 하지만 실제 얼굴에 가해진 작은 편집을 잡으려면, 여전히 그들이 작은 세부 사항에 더 가까이서 보도록 가르쳐야 합니다.

기술 요약: 얼굴 딥페이크 탐지에서 비전 기반 모델의 교차 도메인 일반화 한계

문제 제기

생성 모델, 특히 노이즈 제거 확산 확률 모델 (DDPM) 과 생성적 적대 신경망 (GAN) 의 급속한 진화는 초현실적인 얼굴 딥페이크를 만들어냈으며, 이는 디지털 포렌식에서 detectors 가 보지 못한 조작 기법에 일반화하지 못한다는 치명적인 취약점을 노출시켰습니다. 전통적인 탐지 네트워크는 종종 "표현 붕괴 (representation collapse)"를 겪는데, 이는 훈련 생성기의 특정 샘플링 노이즈나 국소적 아티팩트 지문 (fingerprint) 에 과적합하여 "현실성"에 대한 견고한 표현을 학습하지 못하기 때문입니다. 결과적으로 GAN 기반 합성으로 훈련된 탐지기들은 현대의 확산 (Diffusion) 기반 모델이나 국소적 얼굴 편집 기법에서 생성된 아티팩트를 마주할 때 자주 실패합니다. 본 논문은 현대의 비전 기반 모델 (VFMs) 이 완전히 보지 못한 생성 다양성 (generative manifolds) 전반에 걸쳐 포렌식 이상을 추적할 수 있는 일반화 가능한, 즉시 사용 가능한 특징 추출기로 기능할 수 있는지 조사합니다.

방법론

본 연구는 DF40 벤치마크에서 고정된 비전 기반 모델의 기술 능력을 테스트하기 위해 체계적인 교차 도메인 평가 프레임워크를 사용합니다. 방법론은 사전 훈련된 백본의 내부 가중치를 고정하고 경량 하류 선형 프로빙 (linear probing) 전략을 적용함으로써 사전 훈련된 백본의 원시 표현 공간을 격리합니다.

1. 전처리

배경 혼란 요인을 제거하기 위해, 저자들은 특징 추출 전에 입력 이미지에서 얼굴 관심 영역 (ROI) 을 분리합니다. 이는 모델들이 전역 환경적 단서에 의존하는 것이 아니라 진정한 얼굴 합성 이상을 평가하도록 보장합니다.

2. 평가된 기반 모델 패러다임

세 가지 서로 다른 사전 훈련 패러다임을 대표하는 구조적 구성이 평가되었습니다:

지도 학습 매크로-의미론적 패러다임: ImageNet-1k 로 사전 훈련된 RoPE-ViT 아키텍처입니다. 이 모델은 글로벌 객체 대칭성을 우선시하고 환경적 변동을 배제하면서 하드 의미론적 클래스 경계를 최적화합니다.
자기 지도 학습 기하학적 패러다임: Meta 의 DINOv3 로, LVD-1689M 자연 웹 이미지 컬렉션으로 사전 훈련되었습니다. 마스크 이미지 모델링을 사용하여 국소적 공간 관계를 보존하며, 아키텍처 대칭성과 조명 필드 연속성에 민감합니다.
집합적 다중 교사 패러다임: NVIDIA 의 C-RADIOv4-H 로, 여러 교사를 동시에 증류하는 대규모 아키텍처입니다: 기하학적 토큰 (DINOv3 에서), 의미론적 텍스트 정렬 (SigLIP2 에서), 명시적 에지 경계 (SAM3 에서).

3. 하류 선형 프로빙

각 고정된 백본 $B_\theta$ 에 대해, 가중치 행렬 $W$ 와 편향 $b$ 로 매개변수화된 선형 프로브 레이어가 추출된 특징 벡터 $f$ 를 시그모이드 활성화 함수를 사용하여 이진 진실성 스칼라로 매핑합니다. 최적화는 이진 교차 엔트로피 손실 함수를 사용합니다.

4. 실험 설정

평가에는 약 21,000 개의 진실 얼굴과 20,000 개의 조작된 얼굴로 구성된 다양한 훈련 세트가 사용되었으며, 이는 CelebA-HQ, FFHQ, LaPa 및 다양한 생성 저장소 (100KFake, ThisPersonDoesNotExist) 에서 출처를 얻었습니다. 테스트 프로토콜은 다음을 포함합니다:

분포 내 (In-Distribution): 훈련 분포와 일치하는 표준 테스트 세트.
분포 외 (Out-of-Distribution, OOD): DF40 스위트의 특정 벤치마크를 포함:
- 전체 얼굴 합성: MidJourney 와 WhichFaceIsReal.
- 국소적 얼굴 편집: CollabDiff 와 StyleCLIP.

주요 결과

분포 내 성능

분포 내 데이터에서 대부분의 모델은 잘 수행합니다. FreqNet은 가장 높은 정밀도 (0.9936) 를 달성하는 반면, DINOv3는 0.9930 의 F1 점수와 0.9920 의 정확도로 가장 포괄적인 성능을 보여줍니다. 이는 명시적 국소 주파수 지문과 대규모 자기 지도 학습 기하학적 특징 공간 모두 훈련 및 테스트 분포가 일치할 때 딥페이크 진실성을 효과적으로 매핑할 수 있음을 확인시켜 줍니다.

교차 도메인 일반화 (OOD)

결과는 위조 메커니즘에 기반하여 성능에 극명한 차이를 보여줍니다:

국소적 얼굴 편집 (CollabDiff 및 StyleCLIP):
- 모델 붕괴: 표준 선형 프로브 (ViT LP, DINOv3 LP) 와 표준 CNN(EfficientNet-B0) 은 심각한 기능적 저하를 경험하며 약 0.5000 의 정확도로 수렴합니다. 이는 분류기가 의미 있는 표현을 매핑하지 못하고 무작위 추측 (모든 입력을 가짜로 예측) 으로 회귀하는 완전한 모델 붕괴를 나타냅니다.
- 해상도 민감성: 이러한 실패의 주요 원인은 이러한 데이터세트의 소스 이미지에서 낮은 네이티브 패치 해상도 (약 90×120 픽셀) 입니다. 이러한 텐서를 업스케일하면 미세한 질감 포렌식 경계가 저하되어 표준 모델이 실패하게 됩니다.
- 주파수 대 다중 교사: FreqNet은 전문적인 주파수 추적 덕분에 CollabDiff 에서 성공합니다 (0.8645 정확도) 하지만 더 복잡한 StyleCLIP 파이프라인에서는 붕괴됩니다 (0.2605 정확도). 반면, NVIDIA C-RADIOv4-H는 다중 교사 에지 및 분할 토큰을 활용하여 StyleCLIP 에서 0.6403 의 정확도를 유지하며 가장 회복력 있는 기준선으로 등장합니다.
전체 얼굴 합성 (MidJourney 및 WhichFaceIsReal):
- 이러한 시나리오에서는 전체 합성이 글로벌 기하학적 마커를 남깁니다. 표준 시각 특징 레이어는 강력한 성능을 달성합니다.
- 지도 학습 ViT는 MidJourney 에서 완벽하게 수행되어 (0.9907 정확도) InceptionResNet 과 동률을 이룹니다.
- DINOv3는 WhichFaceIsReal 에서 결정적인 승자 역할을 하여 (0.9055 정확도) 지도 학습 설정과 다중 교사 레이아웃 모두를 능가합니다.

중요성 및 주장

본 논문은 딥페이크 탐지 맥락에서 사전 훈련 패러다임과 매개변수 규모 간의 내재적 트레이드오프를 매핑한다고 주장합니다. 이 작업의 주요 중요성은 선형 프로브 평가 구조의 경계를 노출하는 데 있습니다:

패러다임 민감성: 고정된 기반 특징은 전체 얼굴 합성 과제에서 글로벌 구조적 변형을 쉽게 포착하지만, 국소적 얼굴 편집 기법에 직면할 때 심각한 저하를 경험합니다.
다중 교사 아키텍처의 회복력: 집합적 다중 교사 표현 (NVIDIA C-RADIOv4-H) 은 극단적인 도메인 이동 하에서 가장 회복력 있는 기준선으로 식별되었으며, 전통적인 CNN 과 표준 자기 지도 학습 모델이 붕괴된 곳에서 에지 및 의미론적 경계를 성공적으로 유지합니다. 이는 견고하고 범용적인 포렌식 기술자를 생성하는 데 다중 작업 사전 훈련 목표의 결정적 가치를 강조합니다.
현재 접근법의 한계: 이 연구는 전역적으로 풀링된 토큰 표현에 의존하는 현재 선형 프로빙 구성이 미세한 공간 관계와 국소적 패치 수준의 불일치를 근본적으로 폐기한다고 강조합니다. 이러한 구조적 병목 현상이 국소적 편집 데이터세트에서 미세 혼합 아티팩트를 견고하게 추적하지 못하는 실패를 설명합니다.

저자들은 기반 모델이 전체 얼굴 합성에 대해 높은 판별 능력을 제공하지만, 국소적 편집 기법이 현재 탐지 아키텍처의 근본적인 경계를 노출한다고 결론지으며, 전역 풀링을 넘어 토큰 수준의 일관성과 공간 특징을 국소 주파수 기술자와 결합하는 크로스 어텐션 메커니즘을 탐구하는 향후 작업이 필요하다고 주장합니다.

Cross-Domain Generalization Limits of Vision Foundation Models in Facial Deepfake Detection