SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'enseigner à un robot comment décrire une vidéo de manière aussi vivante et précise qu'un humain. Le défi, c'est que les robots actuels ont tendance à soit inventer des choses (hallucinations), soit à être trop brefs, soit à perdre le fil des actions dans le temps.

Les auteurs de ce papier, SynPO, ont trouvé une solution en deux temps pour perfectionner ce robot. Voici l'explication simple, avec quelques images pour aider à comprendre.

1. Le Problème : Le "Professeur" qui se trompe de méthode

Pour apprendre à un robot à bien décrire une vidéo, on utilise souvent une méthode appelée DPO (Optimisation Directe des Préférences).

L'analogie : Imaginez un professeur qui veut apprendre à un élève à bien rédiger. Au lieu de lui donner des notes sur ce qui est bien, le professeur ne lui montre que ce qui est mal. Il dit : "Ce texte est nul, celui-ci est moins nul. Choisis le moins nul !"
Le souci : Avec le temps, l'élève (le robot) devient si bon pour repérer ce qui est "nul" qu'il oublie comment écrire quelque chose de vraiment bien. Il devient un expert en critique, mais un mauvais rédacteur. Il perd son style, sa grammaire et sa capacité à raconter une histoire, car il se concentre uniquement sur l'évitement des erreurs.

2. La Solution : Une nouvelle méthode appelée "SynPO"

Les chercheurs ont créé SynPO (Optimisation de Préférence Synergique). C'est comme si on donnait au professeur une nouvelle boîte à outils pour ne pas briser l'élève.

Étape A : Créer les bons exercices (La construction des données)

Avant d'enseigner, il faut des exercices de qualité.

L'ancienne méthode : Demander à un humain de noter des vidéos (très cher et lent) ou utiliser un autre robot très puissant (très cher en énergie).
La méthode SynPO : Ils utilisent le robot lui-même !
1. Le robot regarde une vidéo et écrit 10 descriptions différentes.
2. Il se regarde dans le miroir (auto-réflexion) et utilise un autre robot (un LLM) pour noter ces descriptions selon trois critères : "Est-ce vrai ?", "Est-ce bien écrit ?" et "Est-ce cohérent ?".
3. On garde la meilleure description (le "gagnant") et la pire (le "perdant") pour créer un exercice d'apprentissage.
- L'image : C'est comme un chef cuisinier qui fait 10 versions d'un plat, les goûte lui-même, et garde le meilleur et le pire pour apprendre à son apprenti, sans avoir besoin de payer un critique gastronomique externe.

Étape B : La nouvelle méthode d'enseignement (L'algorithme SynPO)

C'est ici que la magie opère. SynPO change la façon dont le robot apprend de ses erreurs.

Éviter la tyrannie de l'erreur : Dans l'ancienne méthode, le robot était trop puni par les mauvaises réponses. SynPO rééquilibre la balance. On ne se contente pas de dire "Non, c'est ça qui est mal", on dit aussi "Oui, c'est ça qui est bien". Cela empêche le robot de devenir pessimiste et de perdre sa créativité.
Garder le "style" : SynPO ajoute une règle spéciale : "Tu dois rester un bon écrivain". Même si tu apprends à éviter les erreurs, tu ne dois pas oublier d'utiliser des phrases fluides et correctes. C'est comme dire à l'élève : "Évite les fautes, mais continue d'écrire avec élégance."
Être plus rapide : L'ancienne méthode nécessitait de garder un "modèle de référence" (un vieux robot) en mémoire pour comparer les réponses. SynPO se passe de ce modèle.
- L'image : C'est comme passer d'un entraînement où l'on compare chaque coup de l'élève à celui d'un champion (ce qui est lent) à un entraînement où l'élève s'améliore directement par la pratique. Résultat : l'entraînement est 20 % plus rapide.

3. Les Résultats : Un robot qui parle mieux

Les chercheurs ont testé cette méthode sur plusieurs modèles de robots (comme LLaVA, AuroraCap, etc.) et sur différents types de vidéos.

Le verdict : Les robots entraînés avec SynPO sont non seulement meilleurs pour décrire les détails subtils des vidéos (les mouvements, les objets, l'ambiance), mais ils écrivent aussi des textes plus naturels et plus cohérents.
La surprise : Cette méthode fonctionne aussi bien pour les vidéos que pour les textes classiques (comme répondre à des questions ou écrire des histoires). C'est une méthode universelle.

En résumé

Imaginez que vous vouliez apprendre à un enfant à dessiner.

L'ancienne méthode (DPO) consistait à lui montrer des dessins ratés et à lui dire "Ne fais pas ça". À force, l'enfant dessinait des lignes droites et ennuyeuses pour ne plus jamais se tromper.
La méthode SynPO, c'est lui montrer un dessin magnifique et un dessin raté, lui expliquer pourquoi le premier est beau (en plus de dire pourquoi le second est moche), et lui dire : "Garde ton style, sois créatif, et évite juste ces erreurs précises."

Le résultat ? Un robot qui ne se contente pas d'éviter les erreurs, mais qui devient un véritable conteur de vidéos.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La légende vidéo fine-grain (fine-grained video captioning) vise à générer des descriptions textuelles détaillées et temporellement cohérentes du contenu vidéo. Malgré les progrès des modèles Vision-Language (VLM), deux défis majeurs persistent :

Manque de données de préférence de haute qualité : Les ensembles de données existants (comme MSRVTT, VATEX) fournissent souvent des légendes trop brèves et manquent de paires de préférences (réponses "meilleures" vs "pires") nécessaires pour l'apprentissage par préférence. La construction manuelle est coûteuse, et les méthodes automatiques actuelles reposent sur des VLMs plus puissants (coûteux en API) ou génèrent des échantillons négatifs artificiels de faible qualité.
Limitations de l'Optimisation Directe des Préférences (DPO) : L'application du DPO à la vidéo souffre de deux problèmes théoriques et empiriques :
1. Dégradation simultanée des récompenses : Le DPO tend à réduire à la fois les récompenses positives et négatives, car la minimisation de la perte est possible même si les deux baissent, tant que la négative baisse plus vite. Cela conduit à une domination des préférences négatives dans le processus d'optimisation.
2. Dérive de l'objectif (Objective Drift) : Le modèle se comporte davantage comme un classifieur de classement (ranking) que comme un générateur, ce qui entraîne une perte des capacités linguistiques générales (cohérence, fluidité) au fil de l'entraînement, comme illustré par la figure 1 du papier.

2. Méthodologie

Les auteurs proposent une approche en deux volets : un pipeline de construction de données et un nouvel algorithme d'optimisation.

A. Pipeline de Construction de Paires de Préférence

Pour pallier le manque de données, les auteurs proposent un pipeline automatisé ne nécessitant ni annotation humaine ni VLM plus puissant :

Génération de candidats : Un VLM génère plusieurs légendes candidates pour une même vidéo en utilisant une stratégie de rétrospection auto (self-retrospective) combinée à un décodage contrastif.
- Décodage contrastif : Réduit les hallucinations en comparant les logits d'échantillons de frames éparses avec ceux de la séquence complète.
- Rétrospection auto : Le modèle affine sa propre sortie initiale en l'utilisant comme contexte pour une génération itérative, enrichissant les détails.
Évaluation et Notation : Les candidats sont notés par un LLM (Large Language Model) selon trois critères :
- Factualité (Décomposition temporelle) : Vérification de la cohérence entre la légende globale et des légendes générées sur des clips courts du même vidéo.
- Fidélité aux instructions et Fluidité : Évaluation de la conformité au prompt, de la naturalité linguistique et de l'objectivité.
- Auto-cohérence : Analyse de la stabilité des entités et actions clés à travers plusieurs générations (mécanisme de vote majoritaire).
Sélection : Les candidats avec les scores les plus élevés et les plus bas forment respectivement les préférences positives et négatives.

B. SynPO (Synergistic Preference Optimization)

SynPO est une nouvelle fonction de perte qui corrige les défauts du DPO tout en préservant la capacité de génération :

Reformulation du calcul de récompense : Au lieu d'utiliser directement les logarithmes des probabilités (qui favorisent la baisse simultanée des récompenses), SynPO applique une transformation exponentielle aux termes de récompense ( $\exp(\log S(y))$ ). Cela permet de mieux gérer les tokens rares mais sémantiquement importants et empêche la domination des préférences négatives.
Terme de récompense linguistique explicite : Une nouvelle terme $\beta \cdot S(y_w)$ est ajouté à la fonction de perte. Contrairement au DPO qui utilise un terme de régularisation KL par rapport à un modèle de référence, SynPO encourage directement la probabilité des tokens de la réponse positive. Cela maintient la fluidité et la cohérence grammaticale, évitant la dérive de l'objectif.
Suppression du modèle de référence : SynPO élimine le besoin d'un modèle de référence ( $\pi_{ref}$ ) pendant l'entraînement, ce qui simplifie le pipeline et améliore l'efficacité.

La fonction de perte finale est :
$L_{SynPO} = -\mathbb{E} \left[ \sigma \left( \alpha \cdot \exp(\overline{\log S(y_w)}) - \alpha \cdot \exp(\overline{\log S(y_l)}) \right) + \beta \cdot \overline{S(y_w)} \right]$

3. Contributions Clés

Pipeline de données automatisé : Une méthode rentable et efficace pour générer des paires de préférences de haute qualité pour la légende vidéo détaillée, exploitant les propriétés intrinsèques des VLMs (auto-cohérence) et l'aide d'un LLM.
Algorithme SynPO : Une méthode d'optimisation qui résout le problème de la dégradation des récompenses et de la perte de capacités linguistiques du DPO, tout en supprimant la dépendance au modèle de référence.
Validation transversale : Démonstration que la méthode fonctionne non seulement sur des tâches de légende vidéo, mais aussi sur des tâches NLP générales, prouvant sa généralité.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs modèles (AuroraCap, LLaVA-1.6, InternVL-2) et ensembles de données (VDC, VDD, VATEX, MSR-VTT, ainsi que des benchmarks NLP comme MT-Bench et Open LLM Leaderboard).

Performance sur la légende vidéo : SynPO surpasse systématiquement le DPO standard et ses variantes (IPO, KTO, SimPO, etc.).
- Sur le benchmark VDC, SynPO obtient des scores significativement supérieurs (ex: 2.43 vs 2.23 pour DPO sur le score global).
- Amélioration de 20% de l'efficacité d'entraînement grâce à la suppression du modèle de référence.
Stabilité et Capacités Linguistiques : Contrairement au DPO qui voit ses performances chuter après un certain nombre d'étapes (dégradation des capacités de langage), SynPO maintient une amélioration continue et préserve la fluidité du texte.
Performance NLP : Sur les benchmarks Huggingface Open LLM Leaderboard (MMLU-PRO, GSM8K, etc.) et les tâches d'instruction (AlpacaEval, MT-Bench), SynPO bat les variantes DPO existantes, confirmant qu'il améliore la compréhension du langage tout en alignant les préférences.

5. Signification et Impact

Ce travail est significatif car il adresse les limites fondamentales de l'alignement des modèles multimodaux via le DPO.

Théorique : Il identifie et corrige la dérive mathématique du DPO où l'optimisation se focalise sur le classement au détriment de la génération de haute qualité.
Pratique : Il fournit une solution viable pour les équipes ayant des ressources limitées (pas besoin de VLMs plus puissants pour le scoring) pour entraîner des modèles de légende vidéo détaillée de pointe.
Généralité : La méthode SynPO s'avère être une amélioration universelle de l'optimisation par préférence, applicable aussi bien aux tâches visuelles qu'aux tâches purement textuelles, ouvrant la voie à des modèles plus robustes et plus cohérents.