MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Problème : L'école inégale des IA

Imaginez que vous enseignez à un enfant (l'Intelligence Artificielle) à reconnaître des objets en lui montrant des milliers de photos.

Le problème : Dans la vraie vie, certaines choses sont très courantes (des chats, des voitures, des gens qui travaillent au bureau), tandis que d'autres sont très rares (un lama en train de danser, un plat de cuisine exotique spécifique).
La conséquence : Si l'enfant voit 10 000 photos de chats et seulement 5 photos de lamas, il va devenir un expert des chats, mais il ne comprendra jamais vraiment ce qu'est un lama. Il va même confondre le lama avec un chat parce qu'il n'a jamais assez pratiqué avec les rares exemples. C'est ce qu'on appelle un déséquilibre (ou "long-tail" en anglais).

Les méthodes actuelles traitent toutes les photos de la même manière, comme si chaque photo méritait la même attention. Résultat : l'IA est bonne pour les choses courantes, mais nulle pour les choses rares.

💡 La Solution : MM-TS (Le Professeur Adaptatif)

Les auteurs de cet article proposent une nouvelle méthode appelée MM-TS (Multi-Modal Temperature and Margin Schedules). Pour faire simple, c'est comme donner à l'IA un professeur très intelligent qui sait exactement comment ajuster sa pédagogie en fonction de la difficulté de la leçon.

Voici comment ce professeur fonctionne, grâce à deux astuces principales :

1. Le "Thermomètre" de l'Attention (La Température)

Imaginez que l'IA apprend avec un "thermomètre" qui contrôle son niveau d'attention.

Température basse (Froid) : L'IA devient très stricte et pointilleuse. Elle dit : "Attends, ce chat ressemble à ce chien, je dois faire très attention à la différence !" C'est parfait pour les objets rares (les lamas). On force l'IA à bien distinguer chaque détail unique.
Température élevée (Chaud) : L'IA se détend et regarde les grandes lignes. Elle dit : "Ah, c'est un animal, peu importe s'il a des taches ou pas, c'est un groupe d'animaux." C'est utile pour les objets très courants (les chats). On aide l'IA à comprendre que tous les chats forment un grand groupe cohérent.

L'innovation : Au lieu de garder une température fixe, MM-TS fait varier ce "thermomètre" tout au long de l'apprentissage. Il commence par apprendre les grandes lignes, puis devient de plus en plus pointilleux, et s'adapte en permanence.

2. La Carte des "Gros Groupes" et des "Petits Groupes"

Comment le professeur sait-il quand il faut être strict ou détendu ? Il utilise une carte de la classe.

Dans les vidéos ou les images, l'IA lit aussi les textes (les légendes, les sous-titres).
Si le texte parle d'un sujet très fréquent (ex: "cuisine avec des œufs"), le professeur sait : "Ah, il y a beaucoup d'exemples d'œufs. Je vais mettre la température un peu plus haute pour que l'IA apprenne à regrouper tous les plats à œufs ensemble."
Si le texte parle d'un sujet rare (ex: "cuisine avec du fenouil sauvage"), le professeur sait : "Il y a très peu d'exemples de fenouil. Je vais mettre la température très basse pour forcer l'IA à mémoriser chaque détail de ce fenouil et ne pas le confondre avec autre chose."

C'est comme si le professeur disait : "Pour les choses que tout le monde connaît, on fait un gros groupe. Pour les choses que personne ne connaît, on prend le temps de les étudier une par une."

🎯 Pourquoi c'est génial ?

C'est juste : L'IA ne néglige plus les objets rares. Elle apprend à les reconnaître aussi bien que les objets courants.
C'est flexible : Cette méthode fonctionne aussi bien avec des images (photos) qu'avec des vidéos (mouvements), et elle combine les deux mondes (vision + texte).
C'est un record : Les auteurs ont testé leur méthode sur des bases de données réelles (comme des vidéos de cuisine ou des photos de la vie quotidienne) et ont battu tous les records précédents. L'IA est devenue beaucoup plus intelligente et équilibrée.

🏁 En résumé

Imaginez que vous entraînez un athlète.

Les méthodes anciennes lui font courir le même entraînement pour tout le monde.
La méthode MM-TS, elle, adapte l'entraînement : elle donne des exercices de précision intense pour les mouvements rares et difficiles, et des exercices de fluidité pour les mouvements qu'il maîtrise déjà.

Résultat ? Un athlète (l'IA) qui est performant dans toutes les situations, qu'il s'agisse de tâches courantes ou de défis rares. C'est une avancée majeure pour rendre l'Intelligence Artificielle plus humaine et plus juste.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'apprentissage contrastif (Contrastive Learning - CL) est devenu une approche fondamentale pour l'apprentissage auto-supervisé, tant en mode unimodal (ex: images) que multimodal (ex: vision-langage). Cependant, deux défis majeurs persistent, particulièrement dans le contexte des données réelles qui suivent souvent des distributions longue traîne (long-tail) :

Gestion statique de la température : Dans les méthodes standard (comme CLIP), le paramètre de température ( $\tau$ ) est généralement fixe. Or, la littérature récente montre que $\tau$ contrôle la force des forces d'attraction (paires positives) et de répulsion (paires négatives). Une température basse favorise la discrimination d'instances (séparation fine), tandis qu'une température élevée favorise la formation de groupes sémantiques (clusters). Un paramètre fixe ne peut pas s'adapter dynamiquement aux besoins changeants du modèle durant l'entraînement.
Déséquilibre des données (Long-Tail) : Les jeux de données multimodaux (images-texte ou vidéo-texte) contiennent souvent des classes très fréquentes (tête de la distribution) et des classes rares (queue de la distribution). Les méthodes standard tendent à sur-optimiser les classes fréquentes au détriment des classes rares, car elles ne distinguent pas la difficulté ou la densité locale des échantillons.

L'objectif de ce travail est de proposer un cadre capable d'adapter dynamiquement les forces d'apprentissage en fonction de la distribution locale des données et de la phase d'entraînement, spécifiquement pour les données multimodales déséquilibrées.

2. Méthodologie : MM-TS

Les auteurs proposent MM-TS (Multi-Modal Temperature and Margin Schedules), un cadre qui étend le concept de "Temperature Schedules" (TS) au domaine multimodal et l'intègre aussi bien dans la fonction de perte InfoNCE que dans la fonction de perte Max-Margin.

La méthode repose sur deux composantes principales :

A. Planification Dynamique de la Température (Cosine Schedule)

Au lieu d'utiliser une température fixe, MM-TS fait varier la température de base ( $\tau_{base}$ ) au cours de l'entraînement selon une fonction cosinus.

Principe : La température oscille entre des valeurs basses et hautes.
- Température basse : Amplifie la répulsion des "négatifs difficiles" (hard negatives), favorisant la discrimination fine des instances (utile pour les classes rares/queue).
- Température haute : Réduit la pénalité sur les négatifs, permettant la formation de clusters sémantiques cohérents (utile pour les classes fréquentes/tête).
Formule : $\tau_{base}(t) = \frac{\alpha \cos(2\pi t/T)}{2}$ , où $t$ est l'itération, $T$ la période et $\alpha$ l'amplitude.

B. Ajustement Individuel basé sur la Distribution (Cluster Shifts)

Pour gérer le déséquilibre des données, le système ajuste la température pour chaque échantillon individuellement en fonction de la densité de sa classe locale.

Estimation de la distribution : Puisque l'estimation de la distribution visuelle est difficile, les auteurs exploitent la nature multimodale du problème. Ils utilisent les annotations textuelles (plus robustes sémantiquement) pour approximer la distribution des données visuelles.
- Les embeddings textuels sont extraits (via BERT ou SentenceBERT) et regroupés en $K$ clusters via l'algorithme K-Means.
- La taille de chaque cluster ( $K_c$ ) sert d'estimation de fréquence.
Calcul du décalage (Shift) :
- Les clusters grands (classes fréquentes) reçoivent un décalage positif ( $sh^+$ ), augmentant la température pour favoriser le regroupement sémantique.
- Les clusters petits (classes rares/longue traîne) reçoivent un décalage négatif ( $sh^-$ ), abaissant la température pour forcer une discrimination d'instance stricte.
Température finale : $\tau_i = \tau_{base}(t) + sh(c_i)$ , où $c_i$ est le cluster de l'échantillon $i$ .

C. Extension au Max-Margin Loss

Une contribution clé est l'adaptation de cette logique aux pertes Max-Margin.

Traditionnellement, le Max-Margin utilise une marge fixe $m$ . MM-TS remplace cette marge fixe par une marge dynamique modulée par la température calculée ci-dessus.
Cela permet de contrôler quelles négatifs sont repoussés : une marge faible repousse seulement les négatifs les plus difficiles, tandis qu'une marge large affecte un spectre plus large de négatifs, imitant l'effet de la température dans InfoNCE.

3. Contributions Clés

Cadre Multimodal Long-Tail : Proposition d'un nouveau framework (MM-TS) qui combine une planification de température cosmique avec des ajustements individuels basés sur la distribution estimée via le texte, spécifiquement conçu pour les données déséquilibrées.
Unification des Pertes : Généralisation de la planification de température au-delà du cadre InfoNCE (CLIP) vers la perte Max-Margin, largement utilisée dans l'analyse vidéo égocentrique (ex: EPIC-KITCHENS). Cela démontre que le contrôle de la "difficulté" des négatifs est bénéfique quel que soit le mécanisme de perte.
Utilisation du Texte pour la Distribution : Utilisation ingénieuse des modalités textuelles alignées pour approximer la distribution des données visuelles, évitant ainsi la complexité du clustering visuel pur.

4. Résultats Expérimentaux

Les auteurs ont évalué MM-TS sur quatre jeux de données majeurs : Flickr30K, MSCOCO, EPIC-KITCHENS-100 et YouCook2.

Recherche Image-Texte (Zero-Shot) :
- Sur Flickr30K et MSCOCO, l'ajout de MM-TS à CLIP (pré-entraîné sur CC3M) améliore significativement les performances de récupération (Recall@1).
- Gain de +3.4% sur Flickr30K et +1.5% sur MSCOCO par rapport à la base CLIP standard.
Récupération Vidéo-Texte (Fine-tuning) :
- Sur EPIC-KITCHENS-100 (tâche MIR - Multi-Instance Retrieval), l'extension du modèle AVION avec MM-TS (Max-Margin) bat l'état de l'art (SOTA).
- Amélioration de +3% sur le mAP (Mean Average Precision) pour la direction Vidéo vers Texte.
- Sur YouCook2, l'extension du modèle VAST avec MM-TS dépasse les résultats originaux de 2.2% à 4%, établissant un nouveau SOTA.
Analyse d'Ablation :
- Les résultats montrent que la combinaison de la planification dynamique (TS) et des décalages individuels (ICS) est supérieure à l'utilisation de l'un ou l'autre seul.
- L'estimation de la distribution basée sur les noms (nouns) s'avère être la source la plus performante pour les ajustements individuels.

5. Signification et Impact

Ce travail est significatif pour plusieurs raisons :

Adaptabilité aux Données Réelles : Il offre une solution élégante et efficace au problème de la longue traîne dans l'apprentissage multimodal, un problème souvent négligé par les modèles de base comme CLIP qui supposent une distribution équilibrée.
Flexibilité Architecturale : En démontrant que la modulation de température/marge fonctionne aussi bien sur InfoNCE que sur Max-Margin, le papier ouvre la voie à l'adoption de ces techniques dans des communautés spécifiques (comme l'analyse vidéo égocentrique) qui utilisent traditionnellement le Max-Margin.
Efficacité : La méthode n'ajoute pas de complexité computationnelle majeure (le clustering est fait une seule fois avant l'entraînement) et ne modifie pas l'architecture du modèle, agissant uniquement sur l'hyperparamètre de température/marge durant la perte.

En conclusion, MM-TS démontre que l'adaptation dynamique des forces d'apprentissage en fonction de la densité locale des données permet d'obtenir des représentations plus robustes et équilibrées, menant à de nouveaux records de performance sur des tâches de récupération multimodale complexes.