EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering
Ce papier présente EgoCross, un nouveau benchmark conçu pour évaluer la capacité de généralisation des modèles de langage multimodaux au-delà des activités quotidiennes en les confrontant à des domaines complexes et variés tels que la chirurgie, l'industrie, les sports extrêmes et la vision animale.