SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

Each language version is independently generated for its own context, not a direct translation.

🎥 Le Problème : Le Chef d'Orchestre qui a perdu la partition

Imaginez que vous avez une très longue vidéo (comme un film de 2 heures) et que votre travail est de la découper en scènes courtes et de décrire ce qui se passe dans chacune. C'est ce qu'on appelle le résumé dense de vidéo.

Le problème, c'est que pour entraîner une intelligence artificielle à faire cela, on a besoin d'un "livret" très précis qui dit : "De 00:10 à 00:25, le garçon joue au ballon. De 00:26 à 00:40, il tombe."

Mais créer ce livret prend des années et coûte une fortune. C'est trop cher ! Alors, les chercheurs utilisent une méthode "faible" : ils donnent à l'IA seulement les phrases descriptives (le livret), mais sans les heures précises. L'IA doit deviner elle-même où commence et où finit chaque scène.

Le problème des anciennes méthodes :
Imaginez que l'IA est un découpeur de gâteau un peu bête. Comme elle ne connaît pas les heures exactes, elle coupe simplement le gâteau en parts égales et aléatoires.

Elle dit : "Voici une part pour le premier événement, une pour le deuxième..."
Mais souvent, elle coupe en plein milieu d'une action ! Elle met le moment où le garçon tombe dans la même part que le moment où il s'assoit. Le résultat est confus et les descriptions sont mauvaises.

💡 La Solution : SAIL (Le Détective Intuitif)

Les auteurs de ce papier proposent une nouvelle méthode appelée SAIL. Ils ont deux astuces géniales pour aider l'IA à devenir un vrai détective visuel.

1. La Boussole de Similarité (Le "Feeling" Sémantique)

Au lieu de couper le gâteau au hasard, SAIL utilise une boussole magique (basée sur une technologie appelée CLIP).

L'analogie : Imaginez que vous avez une phrase écrite sur un post-it : "Le chien court après le ballon". SAIL regarde la vidéo et cherche la partie où l'image du chien qui court ressemble le plus à cette phrase.
Comment ça marche : SAIL force l'IA à dire : "Attends, cette partie de la vidéo correspond vraiment à ce texte, donc c'est ici que je dois mettre mon masque (mon découpage)".
Résultat : Au lieu de parts de gâteau égales, l'IA découpe exactement là où l'action se passe. Elle comprend le sens de la scène, pas juste le temps qui passe.

2. Le Fantôme de l'Écrivain (L'IA qui invente des histoires)

Il y a un autre problème : parfois, le livret original est très vide.

Exemple : Une vidéo de 5 minutes n'a que 2 phrases écrites. Il y a un énorme trou entre les deux ! L'IA est perdue dans ce vide.

Pour combler ce vide, SAIL fait appel à un Grand Écrivain Virtuel (une IA de type LLM, comme un super ChatGPT).

L'analogie : Imaginez que vous avez deux photos : une d'un homme qui enlève son chapeau, et une autre où il salue la foule. Il manque l'action du milieu.
Ce que fait SAIL : Il demande à l'Écrivain Virtuel : "Entre ces deux moments, qu'est-ce qui a pu se passer de logique ?"
L'Écrivain invente une phrase plausible : "L'homme sourit et ajuste sa cravate avant de saluer."
SAIL utilise cette phrase inventée comme un indice fantôme. Il ne dit pas à l'IA "C'est la vérité absolue", mais plutôt "Regarde ici, il y a probablement une action importante, cherche-la !"

🚀 Le Résultat Final

En combinant ces deux astuces :

La boussole qui aligne l'image et le texte.
L'écrivain qui comble les trous dans l'histoire.

L'IA SAIL devient bien meilleure que les anciennes méthodes. Elle découpe la vidéo avec précision et décrit les événements beaucoup plus clairement, même sans avoir eu de manuel d'instructions précis au départ.

En résumé : SAIL transforme un découpeur de gâteau aveugle en un chef d'orchestre qui écoute la musique (le texte) et voit les musiciens (la vidéo) pour placer chaque note au bon moment, en utilisant un assistant créatif pour deviner les notes manquantes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le sous-titrage dense de vidéos (DVC) vise à localiser temporellement des événements dans une vidéo non élaguée et à générer une description textuelle pour chacun. La plupart des méthodes actuelles reposent sur une supervision complète, nécessitant des annotations coûteuses incluant les frontières temporelles exactes et les descriptions.

Le DVC faiblement supervisé (WSDVC) tente de résoudre ce problème en n'utilisant que des annotations textuelles (sans frontières temporelles). Cependant, les méthodes existantes (comme ILCACM) souffrent de deux limitations majeures :

Masques non sémantiques : Elles génèrent des masques temporels (souvent gaussiens) qui se contentent de diviser la vidéo en régions non chevauchantes, sans garantir que ces régions correspondent sémantiquement à l'événement décrit. Cela conduit à des masques uniformes et simplistes qui échouent à capturer les zones visuelles pertinentes.
Sparsité des annotations : Les jeux de données réels contiennent souvent très peu d'événements annotés par rapport à la durée totale de la vidéo. Cette rareté d'annotations limite la capacité du modèle à apprendre des alignements précis entre les features visuelles et les descriptions textuelles.

2. Méthodologie : SAIL

Les auteurs proposent SAIL, une approche qui améliore la localisation et le sous-titrage grâce à deux piliers principaux : une guidance par similarité inter-modale et une augmentation par des légendes synthétiques.

A. Guidance de Masque Consciente de la Similarité (Similarity-Aware Mask Guide)

Contrairement aux méthodes précédentes qui imposent simplement que les masques soient disjoints, SAIL utilise l'alignement inter-modale pour guider la génération des masques.

Principe : Le modèle est entraîné pour maximiser la similarité cosinus entre les features vidéo masquées (région d'intérêt) et la légende de l'événement correspondant, tout en minimisant la similarité avec les autres légendes de la vidéo (perte de classement par marge).
Objectif : Cela force le module de masquage à se concentrer sur les segments temporels dont le contenu visuel est sémantiquement le plus proche de la description textuelle, créant ainsi des masques "informés" plutôt que purement géométriques.

B. Augmentation de Légendes basée sur les LLM (LLM-Based Caption Augmentation)

Pour pallier la sparsité des annotations, l'article introduit une stratégie d'augmentation utilisant un Grand Modèle de Langage (LLM).

Génération de transitions : L'LLM (Qwen3-8B) reçoit des paires de légendes d'événements consécutifs et est invité à générer une description plausible de l'événement de transition qui se produit entre eux.
Guidage Auxiliaire : Ces légendes synthétiques ne sont pas utilisées comme contraintes strictes (ce qui introduirait du bruit), mais comme un signal de guidage auxiliaire.
Mécanisme "Inter-Mask" : Le modèle crée des masques intermédiaires ("inter-masks") centrés entre les événements prédits. Une perte auxiliaire ( $L_{aug}$ ) est calculée pour aligner les features de ces régions intermédiaires avec les légendes synthétiques générées. Cela fournit un signal d'apprentissage plus dense et fin, aidant le modèle à affiner les frontières temporelles.

C. Objectif Final

La fonction de perte totale combine :

La perte de sous-titrage positive et négative (méthode existante).
La perte de similarité inter-modale ( $L_{sim}$ ) pour l'alignement sémantique.
La perte d'augmentation auxiliaire ( $L_{aug}$ ) pour la densification des signaux.

3. Contributions Clés

Guidage de Masque par Similarité : Une nouvelle approche qui utilise l'alignement cross-modal (vision-langage) pour générer des masques focalisés sur le contenu sémantique, remplaçant les contraintes de masquage purement géométriques.
Augmentation par LLM pour la Sparsité : Une méthode novatrice utilisant des LLM pour générer des légendes synthétiques de transition, fournissant des signaux de supervision denses pour améliorer la localisation fine dans des régimes d'annotation clairsemés.
Performance État-de-l'Art : Démonstration que cette approche faiblement supervisée surpasse non seulement les méthodes faiblement supervisées existantes, mais rivalise voire dépasse certaines méthodes entièrement supervisées sur des tâches de localisation et de génération de texte.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux benchmarks majeurs : ActivityNet Captions et YouCook2.

Performance Globale : SAIL atteint les meilleures performances (State-of-the-Art) sur les deux tâches (localisation et sous-titrage) dans le cadre faiblement supervisé.
- Sur ActivityNet, SAIL obtient un score CIDEr de 35,38 (vs 33,42 pour ILCACM) et un F1 de 57,00 pour la localisation.
- Il surpasse également plusieurs méthodes entièrement supervisées sur des métriques clés, prouvant l'efficacité de l'alignement sémantique pour remplacer les annotations temporelles explicites.
Impact de la Densité : Une analyse montre que la performance des méthodes de base chute drastiquement lorsque la densité d'annotations diminue (de 100% à 25%). L'ajout de légendes synthétiques par SAIL permet de maintenir des performances élevées même avec peu d'annotations réelles.
Qualité des Masques : Les visualisations montrent que contrairement aux masques uniformes des méthodes précédentes, les masques de SAIL s'adaptent dynamiquement à la durée réelle des événements (ex: rétrécissement pour des événements courts), confirmant l'apprentissage de caractéristiques temporelles spécifiques.
Efficacité Computationnelle : L'ajout de l'étape d'augmentation par LLM est très léger (prétraitement une seule fois sur le texte) et n'augmente pas significativement le temps d'entraînement ou d'inférence par rapport à la base.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine du DVC faiblement supervisé en démontrant que la qualité de l'alignement sémantique est plus cruciale que la simple séparation temporelle des événements.

Réduction du coût d'annotation : En rendant les annotations temporelles explicites moins critiques, SAIL ouvre la voie à l'application du DVC sur des ensembles de données massifs et non annotés temporellement.
Synergie Vision-Langage : L'utilisation intelligente des LLM non pas pour générer les données finales, mais pour enrichir le signal d'apprentissage intermédiaire, offre une nouvelle voie de recherche pour combler les lacunes des données multimodales.
Robustesse : La méthode démontre une grande robustesse face à la variabilité de la densité des événements, un problème récurrent dans les vidéos réelles (tutoriels, vidéos de vie quotidienne).

En résumé, SAIL transforme le problème de la localisation d'événements en un problème d'alignement sémantique guidé par la similarité, enrichi par la capacité de raisonnement contextuel des LLM, atteignant ainsi des performances qui défient les limites actuelles de la supervision faible.