EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering
El artículo presenta EgoCross, un nuevo benchmark diseñado para evaluar la generalización de modelos de lenguaje grandes multimodales en preguntas y respuestas sobre videos egocéntricos a través de dominios diversos y desafiantes más allá de las actividades cotidianas, revelando las limitaciones actuales de estos modelos y explorando estrategias para mejorar su adaptabilidad.