Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding
이 논문은 단일 샘플 기반의 불안정한 교사를 대체하여 교사의 샘플링 변이를 명시적으로 모델링하고 질감지향 신호 매칭과 적대적 증류 목표를 통합한 'R-MSD' 프레임워크를 제안함으로써, 4B 규모의 비디오 이해 모델에서 VideoMME, Video-MMMU, MathVerse 등 주요 벤치마크에서 기존 방법보다 우수한 성능을 달성함을 보여줍니다.