VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering
Die Studie stellt den VQA-MHUG-Datensatz mit multimodalen Blickdaten von 49 Teilnehmern vor und zeigt erstmals, dass eine höhere Übereinstimmung der Aufmerksamkeitsmechanismen von VQA-Modellen mit der menschlichen Textaufmerksamkeit ein signifikanter Prädiktor für die Modellleistung ist.