VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering
Dit paper introduceert VQA-MHUG, een nieuw dataset met oogvolgingsgegevens van 49 deelnemers, en toont aan dat voor alle onderzochte VQA-modellen een hogere correlatie tussen menselijke en neurale aandacht op tekst een significant voorspeller is van de modelprestaties.