EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering
본 논문은 일상 활동에 국한된 기존 벤치마크의 한계를 극복하고 수술, 산업, 극한 스포츠, 동물 시점 등 다양한 도메인 간 일반화 능력을 평가하기 위해 고안된 멀티모달 대규모 언어 모델용 새로운 벤치마크 'EgoCross'를 제안하고, 이를 통해 현재 모델들의 도메인 적응 한계를 분석하고 개선 방안을 모색합니다.