TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez une vidéo de 3 heures (un documentaire, un match de sport, ou un vlog de voyage). Regarder tout ça prend du temps. Vous voulez un résumé rapide, comme un "teaser" de 2 minutes qui capture l'essentiel. C'est le but du résumé vidéo.

Mais voici le problème : les anciennes méthodes de résumé étaient un peu "bêtes". Elles ne regardaient que l'image, comme un spectateur qui aurait les yeux bandés et ne pourrait entendre que le son, ou qui ne verrait que des images muettes. Elles ne comprenaient pas que parfois, c'est la voix qui raconte l'histoire, parfois c'est l'image, et parfois c'est le sous-titre qui donne le contexte.

Voici comment les chercheurs de l'Université nationale de Séoul (SNU) ont résolu ce problème avec leur nouvelle invention : TripleSumm.

1. Le Problème : Le Chef d'Orchestre Rigide

Imaginez un chef d'orchestre qui dirige un groupe de musiciens (les images, les sons et les textes).

Les anciennes méthodes : Ce chef était rigide. Il disait toujours : "La section des violons (les images) joue à fond, les autres sont en sourdine." Même si le soliste chante une mélodie magnifique (le son) ou si le chef d'orchestre crie une instruction (le texte), le chef rigide continue de faire jouer les violons. Résultat : le résumé est souvent ennuyeux ou incomplet.
La réalité : Dans une vidéo, l'importance change à chaque seconde.
- Exemple A : Un juge de télé-réalité parle. Ici, c'est le texte (ce qu'il dit) qui est le plus important.
- Exemple B : Un robot danse. Ici, c'est le visuel et le son (la musique) qui comptent.
- Exemple C : Un concert. Les trois (visuel, son, texte) travaillent ensemble.

2. La Solution : TripleSumm, le Chef d'Orchestre Adaptatif

Les chercheurs ont créé TripleSumm, un système intelligent qui agit comme un chef d'orchestre super flexible.

Il écoute tout en même temps : Il ne se contente pas de regarder l'image. Il écoute aussi le son et lit les sous-titres (ou la transcription).
Il décide en temps réel : À chaque seconde de la vidéo, il se demande : "Qu'est-ce qui est le plus important maintenant ?".
- Si un personnage parle, il donne la priorité au texte.
- Si un exploit sportif se produit, il donne la priorité à l'image.
- Si une explosion retentit, il donne la priorité au son.
Il s'adapte même si quelque chose manque : Si la vidéo n'a pas de sous-titres, le système ne panique pas. Il réajuste ses oreilles pour écouter encore mieux le son et regarder encore mieux l'image. C'est comme un cuisinier qui sait faire un excellent plat même si un ingrédient manque, en compensant avec les autres.

3. La Cuisine : Comment ça marche techniquement (sans les maths)

Pour que ce chef d'orchestre fonctionne, ils ont utilisé deux astuces principales :

La loupe temporelle (Le bloc "Multi-scale Temporal") :
Imaginez que vous lisez un livre. Parfois, vous devez regarder une seule phrase pour comprendre un détail (une loupe très proche). Parfois, vous devez regarder tout le chapitre pour comprendre l'histoire (une vue d'ensemble).
TripleSumm fait pareil. Il utilise des "fenêtres" de différentes tailles :
- Une petite fenêtre pour voir les détails rapides (un coup de feu, un sourire).
- Une grande fenêtre pour comprendre l'histoire globale (le début, le milieu, la fin).
  Cela lui permet de ne pas rater les petits moments importants ni de perdre le fil de l'histoire.
Le mélangeur intelligent (Le bloc "Cross-modal Fusion") :
C'est ici que la magie opère. Au lieu de simplement mélanger les ingrédients au hasard, le système a un "juge" (un token de fusion) qui goûte à chaque instant. Il dit : "Aujourd'hui, je mets 80% de son, 10% d'image et 10% de texte". Le lendemain, il change les proportions. C'est ce qui rend le résumé si précis.

4. Le Nouveau Terrain de Jeu : MoSu

Avant, les chercheurs n'avaient pas assez de "cuisine" pour entraîner ce chef d'orchestre. Les anciennes bases de données étaient trop petites (comme 25 ou 50 vidéos) ou n'avaient que des images. C'était comme essayer d'apprendre à cuisiner avec seulement 3 recettes.

Pour régler ça, ils ont créé MoSu (Most Replayed Multimodal Video Summarization).

C'est une énorme bibliothèque de plus de 52 000 vidéos.
Le plus important : Chaque vidéo a ses trois ingrédients (Image, Texte, Son) et une note de ce que les gens ont regardé le plus (les moments "rejoués" en boucle).
C'est comme donner à l'IA des milliers de livres de cuisine complets pour qu'elle apprenne à faire de vrais chefs-d'œuvre.

5. Les Résultats : Pourquoi c'est génial ?

Les tests montrent que TripleSumm est le meilleur du monde actuel :

Il est plus précis : Il crée des résumés qui correspondent beaucoup mieux à ce que les humains trouveraient intéressant.
Il est léger : Il est très rapide et ne nécessite pas un super-ordinateur pour fonctionner (contrairement à ses concurrents qui sont lourds et lents).
Il est robuste : Même si on lui donne une vidéo très longue (comme un film de 2 heures) ou une vidéo où il manque un ingrédient (pas de sous-titres), il s'en sort très bien.

En résumé

TripleSumm, c'est comme avoir un assistant personnel qui regarde une vidéo avec vous. Au lieu de juste regarder l'écran, il écoute, lit et comprend le contexte. À chaque seconde, il vous dit : "Regarde ça ! Écoute ça ! C'est important !" et il assemble ces moments pour créer le résumé parfait.

Grâce à leur nouvelle bibliothèque de données (MoSu) et à leur système intelligent (TripleSumm), les chercheurs ont fait un grand pas en avant pour que les ordinateurs comprennent vraiment les vidéos, pas juste les images.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La croissance exponentielle du contenu vidéo sur des plateformes comme YouTube et TikTok a accru la demande pour des résumés vidéo efficaces capables d'extraire les informations clés de vidéos longues. Cependant, les approches actuelles présentent deux limitations majeures :

Approches unimodales ou statiques : La plupart des méthodes existantes se concentrent uniquement sur la modalité visuelle ou utilisent des stratégies de fusion statiques (non adaptatives). Or, la compréhension humaine d'une vidéo est intrinsèquement multimodale. L'importance relative des modalités (visuelle, textuelle, audio) varie dynamiquement au fil des images. Par exemple, dans une vidéo de concours de chant, le texte (paroles) peut être crucial à un moment, tandis que l'audio et le visuel dominent lors d'une performance robotique.
Manque de benchmarks complets : La recherche sur la fusion multimodale est entravée par l'absence de jeux de données à grande échelle fournissant simultanément les trois modalités (visuel, texte, audio) avec des annotations de pertinence. Les datasets existants (SumMe, TVSum) sont trop petits et unimodaux, tandis que d'autres (Mr. HiSum) excluent souvent l'audio ou le texte.

2. Méthodologie : TripleSumm

Les auteurs proposent TripleSumm, une architecture nouvelle qui fusionne de manière adaptative les modalités visuelle, textuelle et auditive au niveau de chaque image (frame-level).

A. Représentation des Entrées

Le modèle traite trois flux synchronisés (Visuel $V$ , Texte $T$ , Audio $A$ ) rééchantillonnés à $N$ pas de temps.

Encodage : Chaque modalité est encodée via des pré-entraîneurs spécifiques (CLIP pour l'image, RoBERTa pour le texte, AST pour l'audio).
Projection : Les embeddings sont projetés dans un espace latent commun de taille $D$ .
Token de Fusion ( $E_f$ ) : Un token de fusion est créé en agrégeant les trois modalités (par moyenne ou MLP) pour servir d'ancre neutre, évitant ainsi les biais d'une modalité dominante (comme l'utilisation du visuel comme requête pour les autres).
Encodage Positionnel : Des encodages de position temporelle et des embeddings de modalité apprenables sont ajoutés.

B. Architecture Principale

L'architecture repose sur une stratégie hiérarchique "affiner-fusionner" ($refine-and-fuse$) composée de deux blocs clés intercalés :

Bloc Temporel Multi-échelle (MST - Multi-scale Temporal Block) :
- Utilise une Attention Auto-Windowée (WSA) avec des tailles de fenêtres variables.
- Les premières couches utilisent de petites fenêtres pour capturer les dépendances locales fines entre images adjacentes.
- Les couches suivantes élargissent progressivement la fenêtre pour capturer les dépendances à long terme et le contexte global.
- Ce bloc est partagé entre les modalités pour une efficacité des paramètres.
Bloc de Fusion Cross-Modal (CMF - Cross-modal Fusion Block) :
- Opère indépendamment à chaque pas de temps.
- Utilise le token de fusion comme requête unique ($Query$) et les tokens spécifiques à chaque modalité comme clés et valeurs ($Key, Value$).
- Grâce au mécanisme d'attention croisée, le modèle apprend dynamiquement à pondérer et à sélectionner la modalité la plus informative pour chaque image spécifique, sans biais préétabli.

C. Entraînement et Inférence

Objectif : Prédire un score d'importance pour chaque image (probabilité d'inclusion dans le résumé).
Perte : Minimisation de l'erreur quadratique ( $L2$ ) entre les scores prédits et les scores de vérité terrain (basés sur les statistiques "Most Replayed" de YouTube).
Génération du résumé : Sélection d'un sous-ensemble de plans temporellement cohérents maximisant les scores prédits sous une contrainte de durée fixe (problème du sac à dos).

3. Contributions Clés

Architecture TripleSumm : Un modèle capable d'ajuster dynamiquement l'importance de chaque modalité à chaque image, robuste même en cas d'absence d'une ou plusieurs modalités.
Dataset MoSu (Most Replayed Multimodal Video Summarization) :
- Le premier benchmark à grande échelle fournissant les trois modalités.
- Composé de 52 678 vidéos (près de 4 000 heures) issues de YouTube-8M.
- Chaque vidéo dispose d'une transcription, d'une piste audio et de statistiques de "rejeu" (Most Replayed) collectées auprès de plus de 50 000 spectateurs, servant de vérité terrain fiable.
Performance et Efficacité : TripleSumm atteint des performances de pointe (SOTA) tout en étant extrêmement léger (1,37M de paramètres) et rapide.

4. Résultats Expérimentaux

Les expériences ont été menées sur quatre benchmarks : MoSu, Mr. HiSum, SumMe et TVSum.

Performance sur MoSu : TripleSumm surpasse toutes les méthodes unimodales et multimodales existantes avec une marge significative.
- Métriques : Kendall's $\tau$ (0,351) et Spearman's $\rho$ (0,472), contre 0,277 et 0,374 pour le meilleur modèle précédent (CFSum).
- Efficacité : 1,37M de paramètres et 0,97 GFLOPs, contre 19,83M et 8,52 GFLOPs pour CFSum.
Généralisation :
- Le modèle performe également mieux sur les datasets humains (SumMe, TVSum) et Mr. HiSum, même lorsqu'il est pré-entraîné sur MoSu et ajusté (fine-tuned) sur ces datasets.
- Il démontre une robustesse remarquable en Zero-shot sur des vidéos très longues (moyenne de 70 minutes), surpassant largement les baselines.
Analyse Qualitative : Les visualisations des poids d'attention montrent que le modèle correctly bascule entre les modalités (ex: privilégier l'audio pour une performance musicale, le texte pour une narration) en fonction du contenu de l'image.

5. Signification et Impact

Ce travail adresse un goulot d'étranglement majeur dans la recherche sur la synthèse vidéo : le manque de données multimodales de qualité et la rigidité des méthodes de fusion.

Changement de paradigme : Il démontre qu'une fusion dynamique et adaptative au niveau de l'image est supérieure aux approches statiques ou unimodales.
Ressource communautaire : La libération du dataset MoSu et du code source fournit une base solide pour les futures recherches en fusion multimodale, permettant de dépasser les limites des petits datasets historiques.
Efficacité : La démonstration qu'un modèle léger peut surpasser des architectures massives ouvre la voie à des applications de synthèse vidéo en temps réel et sur des dispositifs aux ressources limitées.

En résumé, TripleSumm établit un nouvel état de l'art en prouvant que l'intégration intelligente et adaptative du visuel, du texte et de l'audio est essentielle pour une compréhension complète et une synthèse efficace des vidéos complexes.