AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering
Ce papier présente AutoViVQA, un grand ensemble de données construit automatiquement pour le Questionnement Visuel en vietnamien, et explore l'utilisation d'architectures basées sur les transformers ainsi que l'évaluation de différentes métriques automatiques pour améliorer l'alignement avec le jugement humain dans ce contexte multilingue.