MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents
Die Arbeit stellt MA-EgoQA vor, einen neuen Benchmark und ein zugehöriges Basismodell namens EgoMAS, um das Verständnis und die Beantwortung von Fragen über parallele, langfristige Egocentric-Videos von mehreren embodied AI-Agenten zu ermöglichen und dabei die aktuellen Grenzen der Systemintegration aufzuzeigen.