V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous regardez une vidéo muette d'un chat qui joue de la guitare. Votre cerveau s'attend à entendre des cordes pincées, pas le bruit d'une casserole qui tombe. C'est là que la génération vidéo-son (V2A) intervient : c'est l'art de donner une voix aux images silencieuses.

Mais jusqu'à présent, ces "magiciens" de l'IA avaient du mal. Parfois, le son était décalé, parfois il ne correspondait pas à l'action, ou pire, il manquait simplement de "vie" et d'émotion.

Voici l'histoire de V2A-DPO, une nouvelle méthode proposée par des chercheurs pour transformer ces magiciens en véritables compositeurs, et ce, en langage simple.

1. Le Problème : L'IA qui ne sait pas ce qui est "beau"

Avant, pour entraîner une IA à faire du son, on lui disait : "Fais un son qui ressemble à celui-ci" ou "Fais un son qui correspond à l'image". C'est un peu comme apprendre à un enfant à dessiner en lui disant juste "fais un rond". Ça marche pour la forme, mais pas pour le style ou l'émotion.

Les anciens modèles avaient trois gros défauts :

Le style rigide : Ils ne savaient faire que ce qu'ils avaient vu pendant l'entraînement.
Le manque de "goût" : Ils pouvaient produire un son techniquement correct, mais qui ne donnait pas envie d'écouter (pas d'immersion).
La notation en silos : On jugeait la synchronisation, le sens et la qualité séparément, comme si on notait un élève en maths, en histoire et en sport séparément sans voir l'ensemble.

2. La Solution : V2A-DPO, le "Chef d'Orchestre"

Les chercheurs ont créé V2A-DPO. Pour faire simple, c'est une méthode qui apprend à l'IA à choisir ce que les humains préfèrent, en utilisant une approche en trois étapes magiques.

Étape 1 : Le Juge Ultime (AudioScore)

Imaginez un jury de critiques musicaux très pointus. Au lieu d'avoir des humains qui écoutent des milliers de sons (ce qui est trop long et cher), les chercheurs ont créé un robot-juge appelé AudioScore.

Ce robot ne se contente pas de dire "c'est bien" ou "c'est mal". Il note le son sur plusieurs critères, comme un chef cuisinier qui goûte un plat :

Le sens : Est-ce que le son correspond à l'image ? (Un chat qui miaule, pas un chien qui aboie).
Le timing : Est-ce que le son arrive au bon moment ? (Le coup de baguette sur la cymbale doit être exactement au moment où la baguette touche).
La qualité et l'émotion : Est-ce que le son est clair, riche et donne une sensation d'immersion ?

Ce robot note tout, de "Mauvais" à "Excellent".

Étape 2 : L'Entraînement par Comparaison (Le jeu du "Meilleur vs Pire")

Au lieu de donner des notes, le système utilise une astuce intelligente : il crée des duels.
Pour chaque vidéo, l'IA génère 5 versions différentes du son. Le robot-juge (AudioScore) regarde ces 5 versions et dit :

"Ah, celle-ci est la gagnante (c'est le meilleur son)."
"Et celle-là est la perdante (c'est le pire son)."

C'est comme un tournoi de tennis où l'IA apprend non pas en regardant un match parfait, mais en comparant un excellent coup avec un coup raté. Elle apprend ainsi très vite ce qui fait la différence entre un son "moyen" et un son "génial".

Étape 3 : L'École Progressive (Apprentissage par Curriculum)

C'est ici que la méthode devient très maline. Si on donne à un élève des exercices trop difficiles dès le début, il décroche.
Les chercheurs ont donc divisé l'entraînement en deux niveaux :

Le niveau débutant : On montre à l'IA des paires de sons où la différence est énorme (un son parfait vs un son horrible). L'IA apprend les bases facilement.
Le niveau expert : Une fois les bases acquises, on lui montre des paires où la différence est subtile (un son très bon vs un son excellent). C'est là qu'elle affine son "oreille" pour capturer les détails fins et l'émotion.

3. Les Résultats : Un Orchestre Symphonique

Grâce à cette méthode, les modèles testés (comme MMAudio et Frieren) ont fait des bonds de géant.

Avant : L'IA faisait un son qui correspondait à l'image, mais c'était un peu plat.
Après : L'IA produit un son qui est non seulement synchronisé, mais qui a du "goût", de la richesse et qui colle parfaitement à l'action (comme le bruit d'une guitare qui change selon la vitesse du jeu).

En résumé, V2A-DPO est comme un chef d'orchestre qui ne se contente pas de donner le tempo. Il écoute, compare, et apprend à l'IA à jouer non seulement juste, mais avec âme, en se basant sur ce que les humains aiment vraiment entendre.

C'est une avancée majeure pour rendre les vidéos générées par IA non seulement réalistes, mais aussi émotionnellement captivantes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La génération vidéo-à-audio (V2A) vise à synthétiser des sons cohérents et synchronisés à partir de vidéos, souvent avec un prompt textuel. Malgré les progrès récents (modèles GAN, autoregressifs, diffusion, et flow matching), les modèles existants souffrent de limitations majeures :

Contrôle de style limité : Les modèles peinent à générer des variations stylistiques précises en dehors des données d'entraînement.
Qualité esthétique négligée : L'évaluation de la qualité esthétique (immersion, plaisir d'écoute) est souvent ignorée car difficile à modéliser par des récompenses explicites.
Absence de système de notation holistique : Les métriques existantes évaluent la cohérence sémantique, l'alignement temporel et la qualité perceptive de manière isolée, sans système intégré pour refléter les préférences humaines globales.

2. Méthodologie : Le Framework V2A-DPO

Les auteurs proposent V2A-DPO, un cadre d'optimisation directe des préférences (Direct Preference Optimization - DPO) adapté spécifiquement aux modèles de génération vidéo-à-audio basés sur le Flow Matching. L'approche repose sur trois piliers innovants :

A. AudioScore : Système de notation aligné sur les préférences humaines

Pour pallier le coût élevé de l'annotation humaine, les auteurs introduisent AudioScore, un système de notation automatisé combinant plusieurs modèles de fondation (frozen) et des modules MLP/Softmax. Il évalue les échantillons audio selon cinq dimensions :

Cohérence sémantique (Vidéo-Audio) : Mesurée par la similarité cosinus des features via ImageBind (IB-score).
Cohérence sémantique (Texte-Audio) : Évaluée via le modèle CLAP si un prompt textuel est présent.
Alignement temporel : Utilise le score de désynchronisation (DeSync) prédit par Synchformer.
Qualité de génération : Mesurée par le Inception Score (basé sur PANNs).
Qualité perceptive (Voix) : Évaluée via le score PESQ (Perceptual Evaluation of Speech Quality).

Ces cinq scores sont agrégés pour classer les échantillons en "Bon", "Moyen" ou "Mauvais", alignant ainsi la classification automatique sur les jugements humains.

B. Génération de paires de préférences à grande échelle

Un pipeline automatisé est mis en place pour créer un jeu de données d'entraînement massif :

Pour chaque vidéo/prompt, le modèle pré-entraîné génère plusieurs échantillons audio ( $N=5$ ).
AudioScore attribue une probabilité de classe ("Bon", "Moyen", "Mauvais") à chaque échantillon.
Stratégie de sélection "Best vs. Worst" : La paire de préférence est constituée de l'échantillon avec la probabilité la plus élevée de "Bon" (gagnant) et celui avec la probabilité la plus élevée de "Mauvais" (perdant).
Ce processus génère environ 46 000 paires automatiques, complétées par 2 000 paires annotées par des humains (focalisées sur l'aspect esthétique), formant un dataset total d'environ 48 000 paires.

C. Optimisation DPO avec Apprentissage par Curriculum

Pour entraîner le modèle, les auteurs adaptent l'algorithme DPO aux modèles Flow Matching (Flow-DPO). Une innovation clé est l'introduction de l'apprentissage par curriculum :

Calcul de complexité : Chaque paire de préférence se voit attribuer un score de complexité ( $score_c$ ) basé sur la différence de probabilités entre le gagnant et le perdant.
Deux phases d'entraînement :
1. Phase 1 : Le modèle apprend d'abord sur des paires "simples" (différences de qualité évidentes).
2. Phase 2 : Le modèle progresse vers des paires "complexes" (distinctions subtiles) et intègre les paires humaines annotées pour affiner l'aspect esthétique.
Objectif Flow-DPO : L'objectif de perte guide le champ de vecteurs du modèle vers celui de l'échantillon préféré et l'éloigne de l'échantillon non préféré, en minimisant la divergence KL par rapport à un modèle de référence.

3. Contributions Clés

Adaptation pionnière du DPO : Première application du DPO aux modèles V2A basés sur le Flow Matching.
AudioScore : Un système de notation multidimensionnel automatisé qui aligne les métriques objectives avec les préférences humaines subjectives.
Pipeline de données hybride : Création du premier jeu de données de paires de préférences (Vidéo-Texte-Audio) de haute qualité, combinant génération automatique et annotation humaine.
Stratégie d'apprentissage par curriculum : Une méthode pour stabiliser l'entraînement DPO en hiérarchisant la difficulté des paires d'apprentissage.

4. Résultats Expérimentaux

Les expériences ont été menées sur le jeu de données VGGSound en utilisant deux modèles de base : MMAudio (1.03B paramètres) et Frieren (159M paramètres).

Comparaison avec les baselines (DDPO et pré-entraînés) :
- La version DPO-optimisée de MMAudio surpasse significativement sa version pré-entraînée et celle optimisée par DDPO (Denoising Diffusion Policy Optimization).
- Améliorations notables :
  - Augmentation du Inception Score (IS) de +1.81 absolu (+10,4 %).
  - Augmentation du IB-score (cohérence sémantique) de +0,86 absolu (+2,6 %).
  - Réduction du DeSync (désynchronisation) de 0,09 absolu (-20,5 %).
- Visuellement, le modèle DPO parvient à synchroniser des actions complexes (ex: jeu de guitare lent vs rapide) que les modèles DDPO ou pré-entraînés échouent à reproduire correctement.
État de l'art (SOTA) :
- Le modèle MMAudio optimisé par V2A-DPO atteint des performances de pointe sur plusieurs métriques, surpassant des modèles publiés récents comme Seeing&Hearing, FoleyCrafter, V-AURA et ThinkSound, à l'exception de certaines métriques spécifiques où ThinkSound (utilisant un raisonnement en chaîne de pensée) reste compétitif.
Étude Ablative :
- Les résultats montrent que le paramètre de contrainte KL ( $\beta = 600$ ) et le seuil de complexité ( $score_\Delta = 0.7$ ) sont optimaux.
- L'ablation de l'apprentissage par curriculum (utilisation de toutes les paires sans tri) entraîne une dégradation significative des performances, confirmant l'efficacité de la stratégie progressive.

5. Signification et Impact

Ce travail représente une avancée majeure dans le domaine de la génération audio-vidéo :

Il démontre que l'alignement sur les préférences humaines est crucial pour dépasser les limites des modèles génératifs actuels, notamment en matière de qualité esthétique et d'immersion, souvent négligées par les métriques purement objectives.
L'introduction de AudioScore offre une solution scalable pour générer des données d'entraînement de préférence sans dépendre exclusivement d'une annotation humaine coûteuse.
La méthode V2A-DPO établit un nouveau standard pour l'optimisation des modèles de flux (flow matching) dans les tâches multimodales, prouvant que l'apprentissage par curriculum est essentiel pour maîtriser les nuances de la génération audio.

En résumé, V2A-DPO permet de transformer des modèles V2A génériques en systèmes capables de produire des sons non seulement synchronisés et sémantiquement corrects, mais aussi naturels, immersifs et esthétiquement plaisants pour l'auditeur humain.