MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents
Dit paper introduceert MA-EgoQA, een nieuw benchmark en probleemdefinitie voor het beantwoorden van vragen op basis van gelijktijdig opgenomen egocentrische video's van meerdere embodied agents, en presenteert het EgoMAS-basismodel om de huidige tekortkomingen in systeemniveau-interpretatie te adresseren.