EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering
O artigo apresenta o EgoCross, um novo benchmark abrangente para avaliar a generalização de modelos de linguagem multimodal em cenários de vídeo egocêntrico que transcendem atividades cotidianas, cobrindo domínios desafiadores como cirurgia, indústria, esportes extremos e perspectiva animal.