Multimodal Integration of Human-Like Attention in Visual Question Answering
Il paper presenta MULAN, il primo metodo che integra l'attenzione umana multimodale (sia visiva che testuale) nei modelli di Visual Question Answering, ottenendo nuovi record di accuratezza sul dataset VQAv2 con un numero di parametri addestrabili ridotto dell'80% rispetto alle tecniche precedenti.