Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'apprendre à un robot à naviguer dans une maison inconnue. Jusqu'à présent, les meilleurs robots étaient comme des aveugles avec des yeux : ils pouvaient voir les murs et les meubles, mais ils étaient totalement sourds. Ils ne savaient pas que le sol craque sous leurs pas, qu'une porte est ouverte parce qu'ils entendent un courant d'air, ou qu'un objet tombe dans une autre pièce.

Ce papier de recherche propose une révolution : donner au robot non seulement des yeux, mais aussi des oreilles, et surtout, lui apprendre à imaginer ce qui va se passer dans les deux sens (la vue et le son) avant même d'agir.

Voici l'explication simple de leur travail, avec quelques images pour mieux comprendre :

1. Le Problème : Le Robot "Sourd-Muet"

Aujourd'hui, les intelligences artificielles qui prévoient l'avenir (appelées "modèles du monde") sont comme des cinéastes qui ne font que des films muets. Ils peuvent prédire ce que vous allez voir dans la prochaine seconde si vous tournez à gauche, mais ils ne peuvent pas prédire le bruit de la porte qui grince ou le changement d'écho dans la pièce.
Or, dans la vraie vie, le son nous donne des indices cruciaux : il nous dit où sont les objets, la taille de la pièce, et ce qui se passe derrière nous.

2. La Solution : Un "Rêveur" Multisensoriel

Les auteurs ont créé un nouveau modèle qu'ils appellent AVWM (Modèle du Monde Audio-Visuel).
Imaginez ce modèle comme un rêveur très doué. Quand vous lui dites : "Je vais avancer de deux pas", il ne se contente pas de dessiner la prochaine image. Il rêve simultanément :

Ce que vous allez voir (l'image de la prochaine pièce).
Ce que vous allez entendre (le son de vos pas, l'écho, le bruit d'un objet).

C'est comme si le robot avait un double cerveau : un qui imagine les images, et un autre qui imagine les sons, et les deux travaillent ensemble pour créer une scène cohérente.

3. Le Défi : Manque de "Livres d'Histoire"

Pour apprendre à rêver, il faut des exemples. Le problème était qu'il n'existait pas de "livres d'histoire" (données) où l'on voit et entend exactement la même chose en même temps, avec des instructions précises sur les mouvements.

L'analogie : C'est comme vouloir apprendre à cuisiner sans avoir jamais vu de recette ni goûté de plat.
La solution des auteurs : Ils ont construit leur propre "bibliothèque" appelée AVW-4k. Ils ont créé un simulateur virtuel où un robot a marché pendant 30 heures dans 76 pièces différentes, enregistrant tout ce qu'il voyait et entendait à chaque mouvement. C'est leur "manuel d'apprentissage" parfait.

4. L'Architecture : Le Chef d'Orchestre et les Solistes

Pour entraîner ce robot, ils ont inventé une nouvelle machine appelée AV-CDiT.

L'analogie : Imaginez un chef d'orchestre (le modèle principal) qui dirige deux musiciens : un violoniste (la vue) et un violoncelliste (l'ouïe).
Le problème habituel : Souvent, le violon (la vue) est si fort qu'il étouffe le violoncelle (le son). Le modèle oublie d'apprendre à bien entendre.
L'astuce des auteurs : Ils ont utilisé une méthode en trois étapes (comme un entraînement sportif progressif) :
1. D'abord, ils entraînent le violoniste seul pour qu'il soit excellent.
2. Ensuite, ils entraînent le violoncelliste seul pour qu'il ne soit pas effrayé par le violon.
3. Enfin, ils les mettent ensemble pour qu'ils jouent un duo parfait, en s'assurant que le violon ne domine pas trop.

5. Le Résultat : Un Robot Plus Intelligent

Quand ils ont testé ce robot dans une tâche de navigation (trouver une source de son dans une maison), le résultat a été bluffant.

Sans le modèle : Le robot tâtonnait, marchait au hasard et prenait beaucoup de temps.
Avec le modèle AVWM : Le robot "imagine" plusieurs chemins possibles avant de bouger. Il se dit : "Si je tourne à gauche, j'entendrai un écho fort, donc je suis près du mur. Si je vais à droite, le son sera plus clair, donc je suis sur la bonne voie."
Le gain : Il trouve son chemin beaucoup plus vite et avec moins d'erreurs, exactement comme un humain qui utiliserait ses deux sens pour s'orienter.

En résumé

Ce papier nous dit que pour créer une intelligence artificielle vraiment intelligente et capable de vivre dans notre monde, il ne suffit pas de lui donner des yeux. Il faut lui donner des oreilles et lui apprendre à imaginer le futur en utilisant les deux sens ensemble. C'est un grand pas vers des robots qui ne sont pas seulement des caméras sur pattes, mais de véritables explorateurs capables de "sentir" leur environnement.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles du monde (World Models) sont des paradigmes fondamentaux permettant aux agents artificiels de simuler la dynamique d'un environnement pour planifier et raisonner sur les états futurs. Cependant, la majorité des travaux existants se concentrent exclusivement sur les observations visuelles.

Le papier identifie deux lacunes majeures limitant le développement d'agents intelligents réalistes :

Le fossé conceptuel et données : Il n'existe pas de définition formelle d'un modèle du monde audio-visuel (AVWM). Les approches précédentes ne modélisent pas conjointement les observations audio synchronisées, les observations visuelles et les actions fines dans un cadre unifié. De plus, les datasets existants manquent soit de synchronisation audio-vidéo précise, soit d'étiquettes d'actions contrôlables (mouvements précis).
Le fossé architectural : Les modèles actuels, même multimodaux, sont souvent conçus pour des associations sémantiques (texte-image) plutôt que pour la dynamique sensorielle temporellement alignée. Ils ne permettent pas une génération simultanée et cohérente de flux audio et visuels sous contrôle d'action précis.

L'objectif est de combler ces lacunes en créant un cadre capable de simuler la propagation des actions à travers les domaines visuel et acoustique, en utilisant des audio binauraux (spatiaux) pour capturer des indices spatiaux et temporels cruciaux.

2. Méthodologie

Les auteurs proposent une solution complète comprenant une formulation théorique, un nouveau dataset et une nouvelle architecture de modèle.

A. Formulation du Problème (AVWM)

Le modèle du monde audio-visuel (AVWM) est formalisé comme un Processus de Décision Markovien Partiellement Observable (POMDP) :

État ( $S$ ) : État sous-jacent de l'environnement.
Observation ( $O$ ) : Couple synchronisé d'une observation visuelle ( $o^v_t$ , image) et d'une observation audio binaurale ( $o^a_t$ , segment audio court).
Action ( $A$ ) : Transformation spatiale précise de l'agent (déplacement et rotation).
Objectif : Prédire les futures observations audio-visuelles et les récompenses potentielles conditionnées par une séquence d'actions passées et un décalage temporel $\Delta t$ .

B. Dataset : AVW-4k

Pour entraîner ce modèle, les auteurs ont construit AVW-4k, un dataset synthétique de haute qualité :

Contenu : 30 heures de trajectoires audio-visuelles synchronisées dans 76 environnements intérieurs (basés sur Matterport3D et SoundSpaces 2.0).
Caractéristiques : Chaque échantillon contient une image RGB (128x128) et un segment audio binaural de 0,15s à 16 kHz, parfaitement alignés temporellement.
Actions : Les trajectoires sont générées avec des actions précises (avancer, tourner, stop) et incluent une source sonore stationnaire (sonnerie de téléphone) pour évaluer la localisation spatiale.
Spécificité : Contrairement aux datasets existants (comme EPIC-KITCHENS ou AudioSet), AVW-4k offre une cohérence physique stricte entre l'audio et la vidéo, ainsi que des étiquettes d'actions de bas niveau.

C. Architecture : AV-CDiT

Le modèle proposé est un Audio-Visual Conditional Diffusion Transformer (AV-CDiT) avec deux innovations clés :

Architecture à Experts de Modalité (Modality Experts) :
- Le modèle utilise des encodeurs pré-entraînés (Stable Diffusion VAE pour la vidéo, SoundStream pour l'audio) pour obtenir des représentations latentes.
- Au sein des blocs de transformation, des experts de modalité (réseaux feed-forward distincts) traitent séparément les tokens visuels et auditifs après les couches d'attention partagées. Cela empêche la modalité visuelle (souvent dominante) d'étouffer l'apprentissage de la modalité auditive.
Stratégie d'Entraînement en Trois Étapes :
- Étape 1 : Entraînement uniquement sur les données visuelles pour apprendre les représentations spatio-temporelles.
- Étape 2 : Fine-tuning uniquement sur les données audio (avec les experts audio et l'adaptateur), en gelant les composants visuels pour préserver les connaissances spatiales acquises et éviter l'oubli catastrophique.
- Étape 3 : Fine-tuning end-to-end sur les données audio-visuelles synchronisées pour fusionner les modalités et optimiser la cohérence globale.

3. Résultats Expérimentaux

Les expériences ont été menées sur AVW-4k et validées sur une tâche de navigation.

A. Génération Multimodale

Performance Visuelle : AV-CDiT atteint des performances comparables aux meilleurs modèles unimodaux (comme NWM et DIAMOND) sur des métriques comme LPIPS, DreamSim et FID.
Performance Audio : Le modèle surpasse les baselines factorisées (combinaison d'un modèle visuel + un générateur audio séparé comme AudioLDM). Il obtient de meilleurs scores sur la distance spectrale (LSD), la similarité structurelle (SSIM) et la distance audio Fréchet (FAD).
Cohérence : L'architecture à experts et la stratégie en trois étapes permettent d'éviter l'oubli catastrophique tout en améliorant la cohérence croisée entre l'image et le son.

B. Navigation Audio-Visuelle Continue

Le modèle a été utilisé comme outil de planification pour un agent de navigation (tâche Continuous AV-Nav) :

Méthode : L'agent utilise AVWM pour simuler (rollout) plusieurs trajectoires futures possibles et sélectionner l'action menant à la meilleure récompense cumulative (réduction de la distance à la source sonore).
Résultats : L'intégration de AVWM améliore significativement les métriques de navigation :
- Augmentation du SPL (Success weighted by Path Length) et du SoftSPL.
- Réduction du nombre d'actions nécessaires (NA), indiquant une navigation plus efficace et moins d'exploration inutile.
- Les agents planifiés surpassent l'agent de base et se rapprochent des performances d'un modèle du monde "Oracle" (qui aurait accès aux vraies réponses de l'environnement).

4. Contributions Clés

Première Formalisation : Définition formelle du Audio-Visual World Model (AVWM) comme un POMDP intégrant des observations binaurales synchronisées et un contrôle d'action précis.
Dataset AVW-4k : Création du premier dataset de référence contenant 30 heures de trajectoires audio-visuelles binaurales avec des annotations d'actions précises, comblant le manque de données pour l'entraînement de modèles contrôlables.
Architecture AV-CDiT : Proposition d'un modèle de diffusion conditionnel avec une architecture à experts de modalité et une stratégie d'entraînement en trois étapes, permettant un apprentissage équilibré et stable des modalités visuelles et auditives.
Validation Pratique : Démonstration que les modèles du monde audio-visuels améliorent concrètement la prise de décision et la navigation dans des environnements complexes.

5. Signification et Perspectives

Ce travail marque une avancée significative vers des agents d'intelligence artificielle embodied (incarnés) capables d'une compréhension multisensorielle du monde.

Importance de l'Audio : Il démontre que l'audio n'est pas seulement un complément, mais une source d'information critique pour la localisation spatiale et la compréhension de la dynamique environnementale (réverbération, occlusion).
Généralisation : Les principes d'architecture (experts de modalité) et de formation (stagewise) sont génériques et peuvent être appliqués à d'autres modèles génératifs basés sur les Transformers.
Limites et Futur : Actuellement limité aux données synthétiques en raison du manque de données réelles synchronisées et étiquetées. Les travaux futurs viseront à collecter des données réelles à grande échelle pour tester la robustesse dans des environnements imprévisibles.

En résumé, ce papier pose les fondations théoriques et pratiques pour une imagination multisensorielle (vue et ouïe), permettant aux agents de "rêver" et de planifier non seulement ce qu'ils verront, mais aussi ce qu'ils entendront.