AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée du papier de recherche AutoViVQA, conçue pour être comprise par tout le monde, sans jargon technique.

Imaginez que vous voulez apprendre à un enfant à comprendre le monde qui l'entoure en lui montrant des photos et en lui posant des questions. C'est exactement ce que font les intelligences artificielles (IA) avec les Questions-Réponses Visuelles (VQA) : elles regardent une image, lisent une question et doivent trouver la réponse.

Le problème ? La plupart de ces "cours" pour IA sont en anglais. Pour le vietnamien, la langue parlée par près de 100 millions de personnes, il manquait un bon manuel d'apprentissage. Les anciens manuels existants étaient soit trop petits, soit remplis d'erreurs, soit trop simples.

Voici comment les auteurs de ce papier ont résolu le problème avec AutoViVQA.

1. Le Problème : Un livre de cuisine vide

Imaginez que vous voulez apprendre à cuisiner (l'IA) en vietnamien, mais que vous n'avez qu'une seule recette mal écrite ou des recettes traduites automatiquement qui ne font pas sens. C'est la situation actuelle pour l'IA vietnamienne :

Peu de données : Pas assez d'exemples pour apprendre.
Mauvaise qualité : Les questions sont souvent trop simples (ex: "Y a-t-il un chat ?") et ne demandent pas de réflexion profonde.
Biais : Les réponses sont souvent prévisibles, comme si l'IA devinait sans regarder l'image.

2. La Solution : Un Chef Cuisinier Robot (AutoViVQA)

Au lieu de demander à des milliers d'humains de créer des questions (ce qui est lent et cher), les chercheurs ont créé un système automatique piloté par une IA très intelligente (un "Grand Modèle de Langage" ou LLM).

On peut comparer ce système à un chef cuisinier robot qui travaille dans une cuisine ultra-organisée :

L'Approvisionnement (Les Images) : Le robot prend des photos réelles et variées (comme des scènes de rue, des animaux, des objets) provenant d'une grande banque d'images mondiale (MS COCO).
Le Recette (La Génération) : Au lieu de laisser le robot écrire n'importe quoi, les chercheurs lui ont donné un livre de règles strict.
- La règle des 5 niveaux de difficulté : Le robot ne doit pas seulement demander "Quelle est la couleur ?" (Niveau 1). Il doit aussi demander "Pourquoi l'éléphant tient-il un parapluie ?" (Niveau 4 : raisonnement de cause à effet) ou "Que dit l'inscription sur l'affiche ?" (Niveau 5 : lecture dans l'image).
- C'est comme si on forçait le robot à créer des énigmes de tous les niveaux, du plus simple au plus complexe, pour que l'IA apprenne vraiment à penser.

3. Le Contrôle Qualité : Le Jury des 3 Juges

Comment être sûr que les questions créées par le robot sont bonnes ? C'est là que la magie opère.

Les chercheurs ont mis en place un jury d'experts robotiques. Pour chaque question générée :

Plusieurs IA différentes (le jury) lisent la question et l'image.
Elles notent la qualité sur 18 critères différents (est-ce que la phrase est naturelle ? est-ce que la réponse est logique ? est-ce qu'on a besoin de regarder l'image pour répondre ?).
Si la majorité du jury dit "Non, c'est nul", la question est jetée à la poubelle.
Si la majorité dit "Oui, c'est bon", elle est conservée.

C'est comme un concours de cuisine où le plat ne passe que s'il est approuvé par la majorité des juges. Cela élimine les "hallucinations" (des réponses inventées) et les questions floues.

4. Le Résultat : Une Bibliothèque d'Entraînement Parfaite

Grâce à cette méthode, ils ont créé AutoViVQA :

19 000 images réelles.
37 000 questions et 185 000 réponses (5 réponses par question pour tester la précision).
Une grande variété de types de questions : spatiales, causales, de comptage, de lecture de texte dans l'image, etc.

5. Pourquoi c'est important ? (L'Expérience)

Les chercheurs ont pris plusieurs IA existantes (certaines spécialisées en vietnamien, d'autres générales) et les ont entraînées avec ce nouveau "livre de cuisine" (AutoViVQA).

Le résultat ?
Les IA sont devenues beaucoup plus intelligentes et précises.

Avant, elles devinaient souvent.
Après, elles comprennent mieux le contexte et les relations entre les objets.
C'est comme si on avait remplacé un manuel d'apprentissage rempli de fautes par un manuel écrit par les meilleurs professeurs du monde.

En résumé

Ce papier nous dit : "Pour apprendre à une IA à bien comprendre le vietnamien et les images, il ne faut pas juste plus de données, il faut des données de meilleure qualité, variées et vérifiées."

Ils ont créé une machine à fabriquer des questions parfaites, qui a permis de construire le plus grand et le plus intelligent jeu de données pour l'IA vietnamienne à ce jour. C'est une étape cruciale pour que l'IA puisse un jour comprendre non seulement les mots, mais aussi la culture et les situations complexes du quotidien vietnamien.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "AutoVIVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering", structuré selon les axes demandés.

1. Problématique

Le domaine du Visual Question Answering (VQA) en vietnamien souffre d'un manque critique de benchmarks de haute qualité et à grande échelle. Les datasets existants (comme ViVQA, OpenViVQA, ViTextVQA) présentent plusieurs limitations majeures :

Échelle insuffisante : Ils ne permettent pas l'entraînement ou l'adaptation des modèles multimodaux modernes.
Diversité limitée : Les questions se concentrent souvent sur la reconnaissance d'objets ou le texte dans l'image, négligeant des raisonnements complexes (inférence causale, relations spatiales, compréhension contextuelle).
Qualité inégale : L'annotation manuelle est coûteuse et difficile à mettre à l'échelle, tandis que la génération assistée par IA naïve introduit souvent des hallucinations, un ancrage visuel faible et des biais culturels.
Défi méthodologique : Il existe un besoin de construire des données VQA évolutives, conscientes du raisonnement et contrôlées en qualité, sans dépendre massivement de l'annotation humaine.

2. Méthodologie

Les auteurs proposent AutoViVQA, un dataset construit entièrement via un pipeline automatisé piloté par des Grands Modèles de Langage (LLM). La méthodologie repose sur une approche de génération contrôlée et une validation par comité (ensemble-based).

A. Pipeline de Construction des Données

Le processus s'articule autour de plusieurs étapes clés :

Collecte des Ressources : Combinaison d'images réelles issues de MS COCO et de descriptions textuelles vietnamiennes de haute qualité provenant du corpus VISTA (incluant des légendes et des conversations).
Stratégie de Génération Contrôlée :
- Utilisation de LLMs (notamment Gemini 2.5 Flash) non pas comme décideurs autonomes, mais comme générateurs contraints.
- Schéma de Raisonnement à 5 Niveaux : Pour réguler la complexité cognitive, les questions sont générées selon une taxonomie précise :
  - Niveau 1 : Reconnaissance (objets, attributs).
  - Niveau 2 : Spatial et Relationnel.
  - Niveau 3 : Compositionnel (multi-étapes).
  - Niveau 4 : Bon sens et Causalité.
  - Niveau 5 : Texte dans l'image (OCR).
- Contrôle de Distribution : Le pipeline vise une distribution normale des niveaux de raisonnement (avec des proportions cibles spécifiques) pour éviter la dérive vers des questions triviales.
- Format de Réponse : Chaque question est accompagnée de 5 réponses indépendantes courtes (1 à 10 mots), générées pour simuler un consensus d'annotateurs et faciliter l'évaluation.

B. Protocole de Validation et de Filtrage (Quality Assurance)

Pour garantir la qualité sans annotation humaine massive, un protocole de validation par comité d'ensembles (ensemble-based) est mis en place :

Évaluation Multi-Modèle : Chaque échantillon est évalué par un ensemble de $2n+1$ modèles (LLMs et modèles Vision-Language).
Critères de Qualité : 18 dimensions sont analysées, regroupées en quatre catégories : qualité visuelle, complexité contextuelle, validité linguistique et ancrage visuel (Visual Grounding Score).
Filtrage par Vote Majoritaire : Un échantillon n'est conservé que s'il satisfait au moins 9 des 18 critères, déterminés par un vote majoritaire sur des seuils basés sur la médiane des scores.
Équilibrage : Un rééchantillonnage contrôlé assure que les catégories de questions ne dominent pas le dataset.

3. Contributions Clés

AutoViVQA : Introduction d'un dataset vietnamien VQA à grande échelle (19 411 images, 37 077 questions, 185 385 réponses) construit entièrement par un pipeline LLM.
Framework de Génération de Qualité : Proposition d'une méthode qui régule explicitement la complexité du raisonnement via un schéma à 5 niveaux et des contraintes sémantiques, assurant une couverture équilibrée (reconnaissance, relation, causalité, etc.).
Protocole de Validation Automatisé : Conception d'un protocole de validation par vote majoritaire multi-modèle qui filtre les échantillons bruyants ou faiblement ancrés sans recourir à l'annotation humaine, rendant le processus reproductible et évolutif.
Benchmark Complet : Fourniture d'une ressource qui comble le vide entre les datasets synthétiques simples et les données réelles complexes pour les langues à ressources limitées.

4. Résultats Expérimentaux

Les auteurs ont évalué l'efficacité de leur pipeline en entraînant et testant divers modèles (Vintern, ViT5_ViT, BARTPhoBEiT, GPT-5, LLaMA 3.2, Gemini) sur le dataset raffiné.

Améliorations Significatives : L'utilisation du dataset filtré par le pipeline AutoViVQA a entraîné des améliorations constantes sur les métriques de fidélité sémantique (Précision, Rappel, F1, ROUGE, METEOR, CIDEr) pour tous les modèles testés.
Impact de la Qualité des Données : Une comparaison directe entre la version de base de Vintern et sa version finetunée sur le corpus raffiné montre une amélioration d'environ 3 fois sur le score F1 et 8 fois sur le CIDEr. Cela démontre que les gains proviennent principalement de la qualité des données et non de modifications architecturales.
Analyse des Modèles :
- Les modèles VQA spécifiques au vietnamien bénéficient le plus en termes de précision et de cohérence sémantique.
- Les modèles LLM généraux montrent un rappel plus élevé mais une précision plus faible, soulignant l'importance du filtrage pour réduire les hallucinations.
Validation Humaine : Une étude sur un sous-ensemble de 1000 échantillons par des annotateurs humains a confirmé la fluidité linguistique et l'ancrage visuel, avec un accord inter-annotateurs substantiel ( $\alpha = 0.72$ ). Les erreurs résiduelles (moins de 6 %) concernent principalement des questions sous-spécifiées ou des réponses trop génériques.

5. Signification et Impact

Avancée pour les Langues à Ressources Limitées : AutoViVQA démontre qu'il est possible de créer des benchmarks multimodaux de haute qualité pour des langues comme le vietnamien sans dépendre de coûts d'annotation manuelle prohibitifs.
Méthodologie Reproductible : Le framework proposé offre une méthode standardisée pour construire des datasets VQA "conscients du raisonnement" (reasoning-aware) pour d'autres langues à faible ressource.
Évaluation Rigoureuse : Le dataset permet d'évaluer les modèles multimodaux dans des conditions de raisonnement contrôlées, favorisant le développement de systèmes capables de compréhension visuelle profonde et de raisonnement culturellement ancré, au-delà de la simple reconnaissance de motifs.
Limites et Perspectives : Bien que prometteur, le dataset repose sur MS COCO (limitant la diversité culturelle vietnamienne spécifique) et utilise le vietnamien standard. Les travaux futurs devront intégrer des sources visuelles plus diversifiées culturellement et des mécanismes de filtrage sensibles aux dialectes et aux biais.

En conclusion, ce travail établit un nouvel état de l'art pour le VQA vietnamien, prouvant que la génération automatisée couplée à une validation rigoureuse par comité peut surpasser les approches traditionnelles en termes d'échelle, de diversité et de qualité sémantique.