TPCL: Task Progressive Curriculum Learning for Robust Visual Question Answering

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'apprendre à un enfant à résoudre des énigmes complexes en lui montrant des milliers de photos et de questions. C'est ce que font les systèmes d'Intelligence Artificielle (IA) pour répondre aux questions sur des images (ce qu'on appelle le VQA ou Visual Question Answering).

Le problème, c'est que ces IA sont souvent de véritables "tricheurs". Si elles voient souvent la question "Quelle est la couleur de la voiture ?" avec la réponse "Rouge" dans leurs exercices, elles vont deviner "Rouge" même si la voiture est bleue, juste parce que c'est la réponse la plus fréquente. Elles ne regardent pas vraiment l'image, elles mémorisent les habitudes du jeu.

Voici comment les auteurs de cette nouvelle étude ont réglé le problème avec une méthode appelée TPCL (Apprentissage Progressif par Curriculum de Tâches).

1. Le problème : L'élève qui triche

Dans les méthodes classiques, l'enseignant (l'algorithme) donne tous les exercices mélangés au hasard. L'élève IA apprend vite les réponses faciles et les plus fréquentes, mais elle panique dès qu'on lui pose une question différente de ce qu'elle a vu en classe (par exemple, si on lui demande de compter des objets au lieu de dire leur couleur). Elle est "fragile".

2. La solution : Le "Plan de Cours" intelligent (TPCL)

Les auteurs disent : "Arrêtons de donner tous les exercices en vrac !". Au lieu de cela, ils proposent de structurer l'apprentissage comme un programme scolaire bien pensé.

Imaginez que vous apprenez à nager. Vous ne commencez pas par plonger dans le grand bain avec des vagues. Vous commencez par marcher dans l'eau, puis faire de la brasse, puis plonger.

Le TPCL fait exactement cela en deux étapes magiques :

Étape A : Le tri des exercices (La Catégorisation)

Au lieu de mélanger toutes les questions, l'IA les classe par type, comme on classe les livres dans une bibliothèque :

Le rayon des questions "Oui/Non" (ex: "Est-ce qu'il pleut ?").
Le rayon des questions "Combien ?" (ex: "Combien de chats y a-t-il ?").
Le rayon des questions "Quoi/Qui" (ex: "Quel est le nom de cet animal ?").

C'est comme séparer les exercices de mathématiques en "Addition", "Soustraction" et "Multiplication" avant de commencer.

Étape B : L'ordre d'apprentissage (La Difficulté Dynamique)

C'est ici que la magie opère. L'IA ne suit pas un ordre fixe imposé par un humain. Elle s'auto-évalue.

Le test de difficulté : L'IA essaie de résoudre un groupe de questions. Si elle se trompe beaucoup et que ses erreurs changent tout le temps, c'est que ce groupe est difficile (comme un cours de gymnastique avancé). Si elle se trompe peu et que ses erreurs sont stables, c'est facile.
Le parcours inversé : Contrairement à ce qu'on pourrait penser, l'IA commence par les exercices les plus difficiles. Pourquoi ? Parce que si elle apprend à maîtriser les cas complexes d'abord, les cas faciles deviendront des jeux d'enfant. C'est comme si un musicien commençait par une symphonie complexe avant de jouer une comptine : la comptine devient facile, et il a développé une grande dextérité.

3. L'analogie du "Jardinier"

Imaginez un jardinier (l'IA) qui doit apprendre à faire pousser toutes sortes de plantes.

Méthode ancienne : Il plante tout en même temps, au hasard. Les plantes fragiles meurent, et il ne sait pas pourquoi.
Méthode TPCL : Il observe d'abord quelles plantes sont les plus capricieuses (les plus difficiles). Il commence par les soigner avec une attention particulière. Une fois qu'il a appris à gérer les plantes difficiles, les plantes faciles poussent toutes seules. De plus, comme il a appris à gérer les cas difficiles, il peut maintenant faire pousser ces mêmes plantes dans un tout nouveau jardin (un nouvel environnement) sans problème.

4. Le résultat : Un champion inébranlable

Grâce à cette méthode, l'IA ne triche plus. Elle a vraiment appris à comprendre l'image et la question, peu importe le contexte.

Elle réussit mieux que les meilleurs systèmes actuels.
Elle fonctionne même si on lui donne très peu d'exemples (comme un élève brillant qui apprend vite avec peu de révisions).
Elle ne triche pas en se basant sur des biais statistiques, mais en comprenant la logique.

En résumé :
Les auteurs ont inventé une façon d'enseigner aux IA de ne pas apprendre par cœur, mais de comprendre en profondeur. En triant les questions par type et en les faisant apprendre du plus difficile au plus facile (en se guidant elles-mêmes), ils ont créé une IA beaucoup plus intelligente, plus robuste et capable de s'adapter à n'importe quelle situation, même celles qu'elle n'a jamais vues auparavant. C'est comme passer d'un élève qui apprend par cœur à un véritable génie adaptable.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : La fragilité des modèles VQA

Les systèmes de Réponse aux Questions Visuelles (VQA) actuels souffrent d'une grande fragilité face aux décalages de distribution (distribution shifts) et à la pénurie de données.

Biais de données : Les modèles tendent à apprendre des corrélations superficielles entre les questions et les réponses (biais linguistiques) plutôt qu'à comprendre l'image. Ils excellent dans les scénarios de test In-Distribution (IID), où la distribution des réponses correspond à celle de l'entraînement, mais échouent souvent dans les scénarios Out-of-Distribution (OOD), où ces distributions sont inversées ou différentes (ex: datasets VQA-CP).
Limites des solutions existantes : Les approches actuelles (augmentation de données, méthodes d'ensemble, débiaisage explicite) améliorent les performances isolément mais peinent à généraliser simultanément sur des régimes IID, OOD et à faible volume de données. De plus, elles sont souvent sensibles à l'architecture du modèle ou nécessitent des annotations supplémentaires coûteuses.
Le manque de stratégie d'apprentissage : La plupart des méthodes traitent tous les échantillons d'entraînement de manière uniforme, ignorant la difficulté linguistique et la structure sémantique des questions.

2. Méthodologie : Task Progressive Curriculum Learning (TPCL)

Les auteurs proposent TPCL, un cadre d'apprentissage par curriculum (Curriculum Learning - CL) agnostique au modèle qui reformule le problème VQA comme un problème d'apprentissage multi-tâches.

A. Reformulation en tâches sémantiques

Au lieu d'apprendre sur un mélange aléatoire de données, TPCL décompose le dataset en sous-ensembles (tâches) basés sur le type de question (ex: questions "Oui/Non", "Combien", "Quel", etc.). Il y a $T$ tâches (65 types de questions dans l'implémentation).

B. Deux composants clés du Curriculum

Le pipeline TPCL repose sur deux modules intégrés :

Mesure de difficulté Distributionnelle (Dynamic Difficulty Measurer) :
- Contrairement aux méthodes CL classiques qui évaluent la difficulté échantillon par échantillon, TPCL évalue la difficulté par tâche.
- La difficulté est estimée via la divergence des distributions de perte (loss distributions) des échantillons d'une tâche au cours des itérations d'entraînement.
- Optimal Transport (OT) : Pour mesurer cette divergence, les auteurs utilisent la distance de Wasserstein (Optimal Transport). Cette méthode est choisie car elle est robuste aux décalages géométriques des distributions (les histogrammes de perte se déplacent vers zéro au fil de l'entraînement sans chevauchement parfait), là où d'autres métriques comme la divergence KL échoueraient.
- Consolidation : Pour éviter le bruit des mesures instantanées, une fenêtre temporelle ( $B$ itérations) est utilisée pour consolider les scores de difficulté, pondérant davantage les itérations récentes.
Fonction de Rythme (Pacing Function) :
- Cette fonction détermine l'ordre et le volume des tâches présentées au modèle.
- Stratégie "Hard-to-Easy" (Difficile vers Facile) : Le modèle commence par apprendre sur les tâches les plus difficiles (celles avec une forte divergence de perte/instabilité) et progresse progressivement vers les tâches plus stables et faciles.
- Cela contraste avec l'apprentissage classique qui expose le modèle à tout le dataset dès le début, favorisant le surapprentissage (overfitting) aux biais faciles.

C. Flux d'entraînement

Le processus (Algorithm 1) implique :

Un "warm-up" sur l'ensemble des données.
Un calcul itératif des scores de difficulté pour chaque type de question via l'OT.
Le tri des tâches du plus difficile au plus facile.
L'entraînement séquentiel sur des sous-ensembles de tâches croissants (ou décroissants selon la variante), permettant au modèle de maîtriser les concepts complexes avant de consolider les connaissances.

3. Contributions Clés

Première application du CL basé sur les tâches en VQA : Les auteurs introduisent pour la première fois l'idée de traiter le VQA comme un problème multi-tâches structuré par type de question pour améliorer la robustesse.
Nouvelle mesure de difficulté : Développement d'une métrique de difficulté basée sur la distribution des pertes et l'Optimal Transport, supérieure aux moyennes simples de perte, car elle capture la stabilité globale d'une tâche.
Performance sans débiaisage explicite : TPCL atteint des performances state-of-the-art (SOTA) sans nécessiter d'augmentation de données synthétique, de branches de débiaisage supplémentaires ou de modifications de l'architecture du modèle (backbone).

4. Résultats Expérimentaux

Les expériences ont été menées sur les datasets VQA-CP v2, VQA-CP v1 (OOD) et VQA v2 (IID), utilisant différents backbones (LXMERT, UpDn, SAN).

Performance OOD (Robustesse) :
- TPCL surpasse les méthodes les plus compétitives de plus de 5 % sur VQA-CP v2 et 7 % sur VQA-CP v1.
- Avec le backbone LXMERT, TPCL (version dynamique) atteint 77,23 % sur VQA-CP v2, battant la deuxième meilleure approche (FAN-VQA) de 5 points.
- Amélioration massive du backbone : jusqu'à 28,5 % d'amélioration par rapport au modèle de base sur VQA-CP v2.
Performance IID (Généralisation) :
- Contrairement à de nombreuses méthodes robustes qui sacrifient les performances IID, TPCL maintient ou améliore les résultats sur VQA v2 (ex: +3,44 % par rapport à SIMPLEAUG).
Régime à faible données (Low-Data) :
- En n'utilisant que 30 % des données d'entraînement, TPCL atteint des performances SOTA (72,58 %), démontrant une efficacité accrue en situation de pénurie de données.
- L'approche "Hard-to-Easy" (curriculum inversé) s'avère supérieure à l'approche "Easy-to-Hard".
Ablation :
- La mesure de difficulté basée sur l'OT (distributionnelle) est nettement supérieure à une mesure basée sur la moyenne des pertes, confirmant l'importance de considérer la dynamique de la distribution des erreurs.

5. Signification et Impact

Ce travail démontre que la stratégie d'entraînement est aussi cruciale que l'architecture du modèle ou la qualité des données pour résoudre le problème de biais en VQA.

Changement de paradigme : Il suggère que l'ordre d'apprentissage des tâches sémantiques (basé sur la difficulté dynamique) est un levier puissant pour forcer le modèle à apprendre des représentations visuelles robustes plutôt que des raccourcis linguistiques.
Efficacité et Simplicité : TPCL est une méthode simple, sans paramétrage complexe de données, qui peut être appliquée à n'importe quel backbone VQA existant pour améliorer sa généralisation, offrant une voie prometteuse pour le développement de modèles VQA plus fiables et équitables.