EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering
本論文は、日常活動に限定された既存のベンチマークの限界を克服し、手術、産業、極限スポーツ、動物視点など多様なドメインにまたがる egocentric 動画の質問応答におけるマルチモーダル大規模言語モデルのドメイン横断一般化能力を評価するための包括的なベンチマーク「EgoCross」を提案し、既存モデルの限界と改善の可能性を示したものです。