VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un ami très talentueux mais un peu étourdi de dessiner une scène précise pour vous : « Un chat roux qui saute par-dessus un tonneau en bois, avec de la musique de jazz en fond. »

Votre ami vous rend le dessin, mais il y a des problèmes : le chat a quatre pattes de trop, le tonneau flotte dans les airs, et la musique est remplacée par du bruit de marteau.

Dans le monde de l'intelligence artificielle vidéo, c'est exactement ce qui se passe. Les modèles actuels sont incroyables pour créer des vidéos, mais ils ont du mal à suivre des instructions complexes. Le papier que nous allons explorer, VQQA, propose une nouvelle façon de corriger ces erreurs sans avoir besoin de réécrire le code du modèle lui-même.

Voici comment cela fonctionne, expliqué simplement :

1. Le Problème : Le « Test-Drive » coûteux

Auparavant, pour améliorer une vidéo générée par l'IA, on avait deux options :

Le tir au pigeon : On demandait à l'IA de générer 100 vidéos différentes et on choisissait la moins pire. C'est lent et ça gaspille beaucoup d'énergie.
La chirurgie interne : On ouvrait le « cerveau » du modèle (l'accès aux poids internes) pour le réparer. C'est comme si vous deviez démonter le moteur d'une Ferrari pour changer une ampoule. C'est impossible si vous utilisez un service en ligne (comme une API) où vous n'avez pas accès au moteur.

2. La Solution VQQA : L'Équipe de Contrôle Qualité en 3 Temps

VQQA (Video Quality Question Answering) agit comme une équipe de trois experts qui travaillent ensemble pour améliorer la vidéo, étape par étape, en ne parlant que le langage humain (texte).

Imaginez que vous êtes le réalisateur d'un film et que vous avez une équipe de trois assistants :

🕵️‍♂️ L'Inspecteur (Générateur de Questions)

Au lieu de dire « C'est moche », cet inspecteur regarde la vidéo et se pose des questions précises basées sur votre demande initiale.

Exemple : « Est-ce que le chat a bien la couleur rousse ? », « Est-ce que le tonneau touche le sol ? », « Est-ce qu'on entend du jazz ? »
Il crée une liste de questions ciblées, comme un checklist de sécurité.

🧐 Le Juge (Répondeur aux Questions)

Cet expert regarde la vidéo et répond honnêtement aux questions de l'inspecteur avec un score de 0 à 100.

Réponse : « Le chat est roux (90/100), mais le tonneau flotte (10/100) et il n'y a pas de musique (0/100). »
Cela transforme un problème vague (« c'est nul ») en un problème précis (« le tonneau flotte »).

✍️ Le Réalisateur (Affineur de Prompts)

C'est le chef d'orchestre. Il prend les réponses du Juge et dit au modèle IA : « Hé, tu as vu ? Le tonneau flotte et il n'y a pas de musique. Réécris ta propre instruction pour corriger ça ! »

Au lieu de dire « Fais une vidéo », il dira : « Fais une vidéo d'un chat roux sautant sur un tonneau qui touche bien le sol, avec une bande-son de jazz. »
L'IA génère une nouvelle vidéo, plus proche de la perfection.

3. Le Boucle Magique : « Apprendre en faisant »

Ce processus ne s'arrête pas là. Il se répète :

L'IA fait une vidéo.
L'équipe VQQA trouve les défauts.
L'IA corrige sa propre instruction.
On recommence.

En quelques tours seulement (souvent moins de 4), la vidéo passe d'un résultat bancal à quelque chose de magnifique. C'est comme si votre ami étourdi apprenait de ses erreurs à chaque fois que vous lui donnez un feedback précis, au lieu de simplement lui dire « recommence ».

4. Le Gardien du Temple (Sélection Globale)

Il y a un petit piège : parfois, en voulant corriger un détail (comme le tonneau), l'IA oublie l'histoire principale (le chat).
Pour éviter cela, VQQA utilise un Gardien. À la fin de chaque cycle, il compare toutes les versions de la vidéo avec votre demande originale. Il choisit celle qui respecte le mieux l'esprit de votre demande initiale, même si elle n'est pas parfaite sur tous les détails. C'est comme un directeur de casting qui s'assure que l'acteur a bien le look du personnage, même s'il a fait une petite erreur de réplique.

Pourquoi c'est révolutionnaire ?

C'est « Boîte Noire » : Vous n'avez pas besoin d'être un ingénieur en IA ni d'avoir accès au code source. Vous parlez juste à l'IA en langage naturel.
C'est Économe : Au lieu de générer 100 vidéos au hasard, VQQA en génère peu, mais chaque nouvelle version est intelligemment améliorée.
C'est Polyvalent : Ça marche aussi bien pour transformer du texte en vidéo que pour animer une image fixe.

En résumé

VQQA, c'est comme donner à l'IA un miroir et un manuel d'instructions. Au lieu de lui lancer des fléchettes au hasard pour trouver une bonne vidéo, on lui montre exactement où elle a raté le coup, et on lui dit comment ajuster sa visée pour le prochain tir. Résultat : des vidéos plus belles, plus fidèles à nos envies, et générées beaucoup plus vite.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Malgré les progrès rapides des modèles de génération vidéo (basés sur les architectures de diffusion et de transformateurs), l'alignement de leurs sorties avec des intentions utilisateurs complexes reste un défi majeur. Les utilisateurs rencontrent fréquemment des erreurs compositionnelles, des incohérences temporelles et des hallucinations physiques, nécessitant un ajustement fastidieux des prompts par essais et erreurs.

Les méthodes d'optimisation existantes souffrent de deux limitations principales :

Coût computationnel élevé : Les approches de sélection (comme les tournois Best-of-N) nécessitent la génération et l'évaluation d'un grand nombre de candidats.
Accès limité aux modèles : Les méthodes basées sur le gradient (comme Video-TTT ou EvoSearch) nécessitent un accès "boîte blanche" aux poids internes du modèle, ce qui les rend incompatibles avec les API commerciales (boîte noire).

Il existe donc un besoin critique d'un système interprétable, en boucle fermée, capable de diagnostiquer les défauts visuels et d'affiner itérativement les vidéos via une interface de langage naturel, sans accès aux poids du modèle.

2. Méthodologie : Le Framework VQQA

VQQA (Video Quality Question Answering) est un framework unifié multi-agents qui transforme l'évaluation passive en un processus dynamique de question-réponse. Il fonctionne comme un problème d'optimisation de prompt discret en utilisant les critiques d'un Modèle de Langage-Vision (VLM) comme "gradients sémantiques".

L'architecture repose sur trois agents spécialisés :

Agent de Génération de Questions (Question Generation - QG) :
- Analyse la vidéo générée, le prompt et les conditions (images de référence si applicable).
- Génère dynamiquement un ensemble de questions visuelles ciblées selon trois axes : l'alignement vidéo-prompt, la qualité visuelle et la fidélité aux conditions.
- Contrairement aux rubriques statiques, ces questions s'adaptent au contexte spécifique de la génération.
Agent de Réponse aux Questions (Question Answering - QA) :
- Évalue la vidéo par rapport aux questions générées.
- Attribue un score normalisé (0-100) à chaque question.
- Identifie les défauts visuels critiques et construit une carte de diagnostic détaillée. Les paires Question-Réponse à faible score servent de "gradients sémantiques" pour guider l'optimisation.
Agent de Raffinement du Prompt (Prompt Refinement - PR) :
- Synthétise les feedbacks des agents QA pour générer un nouveau prompt optimisé ( $p_{t+1}$ ).
- Utilise les critiques sémantiques pour corriger les erreurs localisées tout en préservant l'intention globale.

Mécanismes de Contrôle :

Sélection Globale (Global Selection) : Pour éviter la dérive sémantique (où l'optimisation locale s'éloigne de l'intention utilisateur), un VLM évaluateur global note tous les candidats générés par rapport au prompt original. La vidéo finale est celle qui maximise cet alignement global.
Critère d'Arrêt Dynamique : Le processus s'arrête lorsque le score global atteint un seuil cible ou lorsque l'amélioration stagne sur une fenêtre de temps donnée, minimisant ainsi les coûts d'inférence.

3. Contributions Clés

Paradigme d'Évaluation Dynamique : Passage d'une évaluation passive (métriques statiques) à une approche active de question-réponse générant des feedbacks actionnables pour l'optimisation.
Optimisation Test-Time sans Accès aux Poids : Formalisation de l'optimisation vidéo comme un problème de recherche de prompt textuel, utilisant les critiques VLM comme gradients, fonctionnant entièrement en mode "boîte noire".
Généralisation Multi-Modalité : Le framework fonctionne sans ajustement spécifique (fine-tuning) pour les tâches Text-to-Video (T2V) et Image-to-Video (I2V), s'adaptant dynamiquement aux conditions d'entrée.
Prévention de la Dérive Sémantique : Introduction d'un mécanisme de sélection globale couplé à un arrêt dynamique pour garantir que les améliorations locales ne compromettent pas l'intention globale.

4. Résultats Expérimentaux

Les expériences ont été menées sur des benchmarks rigoureux (T2V-CompBench, VBench2, VBench-I2V) en utilisant des modèles open-weights (CogVideoX-5B) et propriétaires (Veo 3.1, Gemini, GPT-4o).

Améliorations Significatives :
- Sur T2V-CompBench, VQQA (avec Gemini-3-Pro) atteint une amélioration absolue de +11,57% par rapport à la génération standard, surpassant les méthodes de base comme VPO et Best-of-N.
- Sur VBench2, l'amélioration est de +8,43% par rapport à la génération standard.
- Sur VBench-I2V, VQQA obtient les meilleurs scores sur tous les axes, avec une convergence rapide (moyenne de 1,6 itération).
Efficacité et Convergence :
- Le système converge rapidement, généralement en 3 à 4 itérations.
- Le coût d'inférence (nombre d'appels VLM) est comparable à une stratégie Best-of-5, mais avec une qualité de sortie nettement supérieure grâce à l'optimisation ciblée.
Robustesse : Les résultats montrent que VQQA résout efficacement les erreurs compositionnelles (numération, relations spatiales, interactions) et les artefacts physiques.

5. Signification et Impact

VQQA représente une avancée majeure dans le domaine de la génération vidéo en démontrant qu'il est possible d'optimiser de manière itérative et précise des modèles complexes sans accès à leurs paramètres internes.

Accessibilité : En fonctionnant via une interface de langage naturel, la méthode est applicable aux modèles propriétaires (API) et open-source, démocratisant l'optimisation de haute qualité.
Interprétabilité : Contrairement aux méthodes de gradient caché, VQQA fournit un feedback explicite et humainement interprétable sur les défauts, facilitant le débogage et la compréhension des échecs de génération.
Efficacité Computationnelle : En évitant la génération massive de candidats (comme dans Best-of-N) ou les calculs de gradients coûteux, VQQA offre une solution scalable pour aligner les modèles de génération vidéo sur des intentions humaines complexes.

En résumé, VQQA établit un nouveau standard pour l'optimisation "test-time" en transformant l'évaluation en un processus actif et collaboratif entre agents IA, permettant une création de contenu plus contrôlable et de meilleure qualité.