EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering
Deze paper introduceert EgoCross, een nieuw benchmark voor het beoordelen van de cross-domein generalisatie van multimodale grote taalmodellen in egocentrische video-vraag-antwoordtaken, waarbij wordt aangetoond dat bestaande modellen moeite hebben met domeinen die afwijken van het dagelijkse leven, zoals chirurgie en extreme sporten.