Unified Vision-Language Modeling via Concept Space Alignment

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez deux bibliothèques géantes dans votre cerveau. L'une contient des livres dans 1 500 langues différentes (le texte), et l'autre contient des films et des photos (la vision). Jusqu'à présent, ces deux bibliothèques parlaient des langages différents et ne pouvaient pas vraiment se comprendre.

Ce papier de recherche, intitulé "v-Sonar", raconte l'histoire de comment les chercheurs ont construit un pont magique entre ces deux bibliothèques.

Voici l'explication simple de leur découverte, avec quelques images pour aider à visualiser :

1. Le Problème : Deux langues qui ne se parlent pas

Avant, les ordinateurs étaient très forts pour lire (comme un bibliothécaire expert) ou très forts pour voir (comme un photographe expert), mais ils avaient du mal à faire les deux en même temps, surtout dans toutes les langues du monde. C'est comme si vous aviez un traducteur qui ne parlait que l'anglais et un photographe qui ne parlait que le japonais : ils ne pouvaient pas collaborer.

2. La Solution : v-Sonar, le "Traducteur Universel"

Les chercheurs ont créé v-Sonar. Imaginez que Sonar (l'ancien système) était un immense dictionnaire universel qui comprenait 1 500 langues écrites et 177 langues parlées. Il savait résumer une idée complexe en un seul "mot magique" (une représentation mathématique) que n'importe quelle langue pouvait comprendre.

v-Sonar, c'est l'ajout d'une nouvelle aile à ce dictionnaire. Maintenant, il ne comprend plus seulement les mots, mais aussi les images et les vidéos.

L'analogie : Imaginez que vous regardez une vidéo d'un chat qui joue avec une balle. Au lieu de décrire la vidéo mot par mot, v-Sonar transforme l'image du chat en un "code secret" qui ressemble exactement au code secret du mot "chat" dans le dictionnaire. Grâce à cela, l'ordinateur comprend que l'image et le mot signifient la même chose, peu importe la langue utilisée.

3. Comment ont-ils construit ce pont ? (L'entraînement en 3 étapes)

Pour apprendre à ce système à comprendre les images, ils n'ont pas tout réinventé. Ils ont utilisé une méthode intelligente en trois étapes, comme on apprendrait à un enfant à dessiner :

Le Brouillon (Étape 1) : Ils ont montré des millions de photos avec des légendes simples. C'est comme apprendre les bases : "C'est un chien", "C'est une voiture".
Le Mouvement (Étape 2) : Ils ont ajouté des vidéos synthétiques (générées par ordinateur) pour apprendre au système à comprendre le temps et le mouvement. "Le chien court", "La voiture tourne".
La Perfection (Étape 3) : Enfin, ils ont utilisé des vidéos réelles, soigneusement décrites par des humains, pour affiner les détails. C'est là que le système apprend les nuances, comme la différence entre un "chat qui dort" et un "chat qui joue".

4. Le Super-Héros : v-LCM

Une fois le pont (v-Sonar) construit, ils ont utilisé un cerveau très puissant appelé LCM (Large Concept Model). Ce cerveau était déjà très intelligent pour lire et raisonner dans le dictionnaire universel, mais il ne voyait rien.

En connectant v-Sonar à ce cerveau, ils ont créé v-LCM.

L'analogie : C'est comme donner des lunettes de vision nocturne à un bibliothécaire qui ne voyait que des livres. Soudain, il peut lire les livres et regarder les films, et tout comprendre en même temps.

5. Pourquoi c'est génial ? (Les résultats)

Ce système a deux super-pouvoirs incroyables :

Il est un champion du monde en anglais : Il décrit des vidéos et répond à des questions aussi bien que les meilleurs systèmes actuels.
Il est un champion du monde dans les langues rares : C'est là que ça devient magique. La plupart des intelligences artificières actuelles sont excellentes en anglais, chinois ou espagnol, mais elles sont nulles dans des langues comme le tamoul, le yiddish ou le swahili.
- Le résultat : v-LCM est aussi bon que les meilleurs systèmes dans ces langues, et souvent bien meilleur. Il ne "trébuche" pas sur les langues moins connues. C'est comme si le bibliothécaire pouvait maintenant lire et décrire des films dans 61 langues différentes avec la même facilité, là où les autres devaient utiliser un traducteur approximatif.

En résumé

Les chercheurs ont créé un système qui transforme les images et les vidéos en un langage universel compris par 1 500 langues. Cela permet à l'ordinateur de "voir" et de "parler" simultanément, non seulement pour les langues riches, mais pour tout le monde, des plus grandes langues aux plus petites. C'est un pas de géant vers une intelligence artificielle vraiment inclusive.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles d'intelligence artificielle multimodaux actuels (VLM) reposent souvent sur des architectures complexes qui alignent les représentations visuelles et textuelles via des mécanismes d'attention croisée ou des espaces d'embedding partagés, mais généralement limités à des ensembles de langues spécifiques ou nécessitant un réentraînement massif pour chaque nouvelle langue.

Le papier identifie deux lacunes majeures :

Limitation des espaces d'embedding existants : Les espaces d'embedding universels comme Sonar (qui supporte 1500 langues textuelles et 177 langues vocales) sont puissants pour le texte et la parole, mais ne gèrent pas nativement les modalités visuelles (images et vidéos).
Inefficacité du réentraînement : Les approches traditionnelles pour ajouter la vision nécessitent souvent un pré-entraînement conjoint massif sur des données vision-langage, ce qui est coûteux et difficilement extensible à des milliers de langues.

L'objectif est de créer un espace d'embedding unifié capable de traiter le texte, la parole, l'image et la vidéo dans un même espace latent, permettant à un modèle de langage (LCM) entraîné uniquement sur du texte de comprendre et de raisonner sur des concepts visuels sans réentraînement spécifique sur des données visuelles.

2. Méthodologie

L'approche proposée repose sur deux piliers principaux : la création de v-Sonar et l'extension du Large Concept Model (LCM) en v-LCM.

A. v-Sonar : Alignement Post-Hoc de l'Espace Visuel

Les auteurs introduisent v-Sonar, une extension de l'espace d'embedding Sonar aux modalités image et vidéo.

Architecture : Ils utilisent un encodeur visuel de pointe, le Perception Encoder (PE), comme base. Un projecteur léger est ajouté au-dessus de PE pour mapper ses représentations dans l'espace sémantique de Sonar.
Stratégie d'alignement (Teacher-Student) : L'encodeur texte Sonar est figé (frozen). Seuls le projecteur et l'encodeur visuel sont mis à jour. L'objectif est de minimiser la distance entre l'embedding visuel ( $z_v$ ) et l'embedding textuel de la légende correspondante ( $z_t$ ) via une perte de MSE (Mean Squared Error).
Curriculum d'apprentissage en trois étapes (Coarse-to-Fine) :
1. Alignement grossier : 12 millions de paires image-légende (données PLM) pour établir une correspondance de base.
2. Adaptation temporelle : 2 millions de paires vidéo-légende synthétiques pour apprendre la dynamique temporelle.
3. Alignement fin : 200 000 paires vidéo-légende annotées par des humains (PE-Video) pour une précision sémantique élevée.
Traitement vidéo : Le projecteur injecte des embeddings de position, applique une couche d'attention temporelle pour les interactions entre trames, puis agrège les trames en une seule représentation vidéo.

B. v-LCM : Modélisation Diffusion Latente Unifiée

Une fois v-Sonar aligné, les auteurs l'utilisent avec le Large Concept Model (LCM).

Principe : Le LCM est un modèle de langage basé sur la diffusion latente qui prédit la prochaine embedding (et non le prochain token) dans l'espace Sonar.
Fonctionnement v-LCM :
- Les entrées visuelles (images/vidéos) sont encodées via v-Sonar.
- Les instructions textuelles sont encodées via Sonar.
- Ces embeddings sont concaténés en une séquence unique.
- Le modèle est entraîné avec une instruction tuning sur des données multimodales multilingues (M3IT) en utilisant le même objectif de diffusion latente que le LCM texte.
Avantage clé : Le modèle opère entièrement dans un espace latent agnostique de la modalité, permettant une génération et un raisonnement unifiés.

3. Contributions Clés

v-Sonar : Premier espace d'embedding universel couvrant quatre modalités (texte, parole, image, vidéo) et jusqu'à 1500 langues, obtenu par une stratégie d'alignement post-hoc efficace.
Zéro-shot Vision par le LCM : Démonstration qu'un modèle de langage (LCM) entraîné uniquement sur du texte peut comprendre des concepts visuels (description de vidéo, résumé) de manière zéro-shot grâce à l'alignement v-Sonar, sans avoir jamais vu de données vidéo pendant son pré-entraînement.
v-LCM : Extension du LCM en un modèle vision-langage instructionné qui surpasse les modèles de l'état de l'art (SOTA) sur des tâches de génération et de question-réponse, particulièrement dans des langues à ressources faibles.
Analyse de l'espace latent : Preuve que l'alignement préserve la structure sémantique et les détails visuels nécessaires au raisonnement (ex: VCR - Visual Commonsense Reasoning).

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks (PE-Video, Dream-1k, Vatex, M3IT).

A. Performance v-Sonar (Zéro-shot)

Récupération Vidéo (Retrieval) : v-Sonar atteint un Recall@1 de 73,03 sur PE-Video, surpassant largement SigLIP2 (63,91) et l'encodeur Perception original.
Légendage Vidéo (Captioning) : Avec le décodeur OmniSONAR, v-Sonar obtient un score BLEU de 23,9 sur Dream-1k (vs 19,6 pour le SOTA) et 39,0 sur PE-Video (vs 30,0 pour le SOTA). Il surpasse des modèles massifs comme Qwen-VL et InternVL.

B. Performance v-LCM (Instruction Tuning)

Tâches Générales : v-LCM atteint des performances compétitives avec les meilleurs VLMs (InternVL, Qwen-VL) sur la légendation et le questionnement (QA) image/vidéo.
Multilinguisme (Point Fort) : Sur le benchmark M3IT couvrant 62 langues, v-LCM surpasse les modèles concurrents dans 61 langues sur 62.
- Il excelle particulièrement dans les langues à ressources faibles (ex:ourdou, tamoul, tajik) où les autres modèles échouent souvent.
- Il maintient des performances solides même pour des tâches complexes comme le résumé de longues vidéos (VideoXum) et le raisonnement visuel (VCR).

C. Analyse de Robustesse

L'analyse montre que v-Sonar maintient une distribution plus étendue (plus grande trace et log-déterminant) que les espaces précédents, ce qui favorise la génération.
Les expériences de "Round-trip retrieval" confirment un faible décalage sémantique (drift) lors du passage de l'embedding visuel au texte généré.

5. Signification et Impact

Ce travail représente une avancée majeure dans la modélisation multimodale pour plusieurs raisons :

Unification des Modalités : Il prouve qu'il n'est pas nécessaire d'avoir des architectures complexes spécifiques pour chaque modalité. Un espace conceptuel unique (Sonar) peut englober le texte, la parole, l'image et la vidéo.
Efficacité et Échelle : La méthode d'alignement post-hoc permet de transférer les capacités de compréhension visuelle à des modèles de langage existants sans réentraînement massif sur des données vision-langage, rendant le déploiement à grande échelle (1500 langues) économiquement et computationnellement viable.
Équité Linguistique : En s'appuyant sur la robustesse multilingue de Sonar, v-LCM comble le fossé technologique entre les langues à ressources abondantes (anglais, chinois) et les langues à ressources faibles, offrant des capacités VLM de pointe à des communautés souvent négligées.
Nouveau Paradigme : L'approche par "Concept Model" (prédiction d'embeddings plutôt que de tokens) ouvre la voie à une génération plus fluide et sémantiquement cohérente, dépassant les limitations des modèles basés sur les tokens discrets.

En résumé, v-Sonar et v-LCM démontrent qu'un espace d'embedding universel peut servir de fondation solide pour des modèles vision-langage performants, évolutifs et véritablement multilingues.