AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering
この論文は、PhoBERT や Vision Transformer などの事前学習済みトランスフォーマーを活用し、大規模な自動構築データセット「AutoViVQA」を提案するとともに、多言語環境における自動評価指標と人間の判断との整合性を検証するベトナム語の視覚的質問応答(VQA)研究について述べています。