AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering
Este trabalho explora a Resposta Visual a Perguntas (VQA) em vietnamita utilizando arquiteturas baseadas em transformers, comparando sistematicamente métricas de avaliação automática em cenários multilíngues para aprimorar o alinhamento com o julgamento humano.