Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing
이 논문은 다양한 스푸핑 공격 유형을 포괄하는 대규모 시각 - 언어 질문 답변 데이터셋 'FaceCoT'와 강화학습 기반 캡션 모델 및 CoT 기반 점진적 학습 전략을 도입하여, 기존 단일 모달리티 기반의 한계를 극복하고 얼굴 생체 인증 위조 탐지 (FAS) 의 일반화 성능과 해석 가능성을 획기적으로 향상시켰습니다.