EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Deze paper introduceert EgoCross, een nieuw benchmark voor het beoordelen van de cross-domein generalisatie van multimodale grote taalmodellen in egocentrische video-vraag-antwoordtaken, waarbij wordt aangetoond dat bestaande modellen moeite hebben met domeinen die afwijken van het dagelijkse leven, zoals chirurgie en extreme sporten.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot hebt die al jarenlang meekijkt terwijl mensen in hun keuken koken, hun huis poetsen of in de tuin werken. Deze robot is een meester geworden in het begrijpen van alledaagse situaties. Hij weet precies wat een mes is, hoe je een ei breekt en wat er gebeurt als je een pan op het vuur zet.

Maar wat gebeurt er als je deze robot plotseling meeneemt naar een operatiekamer, een fabriek, een extreem sportevenement of zelfs op de rug van een kat?

Dat is precies het probleem dat dit nieuwe onderzoek, genaamd EgoCross, aanpakt. Hier is een uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Keuken-Bril"

Tot nu toe zijn de slimme computers (die we Multimodale Large Language Models of MLLMs noemen) getraind op video's van alledaagse dingen. Het is alsof ze alleen maar een keukenbril hebben gedragen. Ze zijn experts in het zien van eieren en paniek in de keuken.

Maar in de echte wereld moeten robots ook kunnen helpen bij:

  • Chirurgie: Waar ze niet zomaar een "mes" zien, maar moeten onderscheiden tussen een 'grasper', een 'cautery hook' en een 'bipolar forceps'.
  • Industrie: Waar ze complexe reparaties aan printplaten moeten volgen.
  • Extreme Sporten: Waar de camera razendsnel beweegt en alles wazig is (denk aan skydiven of skiën).
  • Dierperspectief: Video's gemaakt door camera's op de rug van dieren, waar de wereld er heel anders uitziet (grote poten, lage hoeken).

De onderzoekers ontdekten dat deze slimme robots, zodra ze de keukenbril afzetten en de operatiebril opzetten, volledig in de war raken. Ze weten niet meer wat ze zien.

2. De Oplossing: EgoCross (De Nieuwe Test)

Om dit te testen, hebben de onderzoekers EgoCross bedacht. Dit is geen gewone test, maar een grote uitdaging voor deze robots.

  • Het Concept: Stel je voor dat je een student die perfect kan rekenen met appels en peren, plotseling een examen geeft over kwantumfysica en astrofysica. EgoCross is dat examen.
  • De Inhoud: Het bevat bijna 1.000 vragen over 798 video's uit de vier moeilijke werelden (chirurgie, industrie, sport, dieren).
  • De Vragen: De vragen zijn niet zomaar "Wat zie je?". Ze zijn slim en specifiek, zoals: "Welk instrument gebruikte de linkerhand van de chirurg tussen 0 en 20 seconden?" of "Welke richting gaat de skiër als hij de volgende bocht neemt?"

3. De Resultaten: De Robots Struikelen

Toen de onderzoekers de beste robots ter wereld (zoals GPT-4, Gemini en andere open-source modellen) deze test lieten doen, was het resultaat schokkend:

  • Ze faalden. Zelfs de slimste robots haalden vaak minder dan 55% goed. Dat is alsof je een examen doet en meer dan de helft van de vragen fout hebt, terwijl je toch een "slimme" robot bent.
  • De "Dagelijkse" Robots waren het slechtst: Interessant genoeg deden robots die speciaal waren getraind voor dagelijkse taken het zelfs slechter dan de algemene robots. Het was alsof een chef-kok die alleen maar pizza's kan maken, volledig vastloopt als je hem vraagt om een auto te repareren.
  • De "Grote Broers" deden het iets beter: De allerduurste, meest geavanceerde modellen (zoals Gemini 2.5 Pro) deden het iets beter, maar zelfs zij hadden moeite. Ze konden de basis zien, maar faalden bij het begrijpen van de complexe logica (bijvoorbeeld: "Welke stap komt er na deze chirurgische ingreep?").

4. Wat hebben ze geleerd? (De Pilot Studies)

De onderzoekers probeerden de robots te helpen door ze extra te trainen (zoals een student die extra leert voor het examen).

  • Simpele hints geven (Prompting): Hielp een beetje.
  • Extra leren (Fine-tuning): Hielp in sommige gebieden, maar niet overal.
  • Leren door fouten te maken (Reinforcement Learning): Dit was de winnaar! Door de robot te laten oefenen en feedback te geven op zijn fouten, werd hij veel beter in het aanpassen aan deze nieuwe werelden. Het is alsof je een robot niet alleen instructies geeft, maar hem laat "proberen en falen" tot hij het snapt.

Conclusie: Waarom is dit belangrijk?

Deze studie is een wake-up call. Het laat zien dat onze slimme robots nog niet klaar zijn voor de echte, complexe wereld. Ze zijn geweldig in de keuken, maar ze moeten nog veel leren om veilig en nuttig te zijn in ziekenhuizen, fabrieken of bij extreme sporten.

EgoCross is de nieuwe meetlat om te zien of robots echt "slim" zijn, of dat ze alleen maar goed zijn in het herhalen van wat ze al kennen. Het is de eerste stap naar robots die echt kunnen meedenken in elke situatie, of ze nu een scalpel vasthouden of op een skateboard staan.