EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering
Il paper introduce EgoCross, un benchmark completo per valutare la capacità di generalizzazione cross-dominio dei Modelli Linguistici Multimodali nella risposta a domande su video in prima persona, coprendo scenari complessi come chirurgia, industria, sport estremi e visione animale e rivelando le attuali limitazioni dei modelli esistenti.