InSpatio-WorldFM: An Open-Source Real-Time Generative Frame Model

Ce papier présente InSpatio-WorldFM, un modèle génératif open-source en temps réel qui, contrairement aux modèles vidéo séquentiels, génère des images indépendantes pour assurer une inférence spatiale à faible latence tout en préservant la cohérence géométrique multi-vues grâce à une pipeline d'entraînement progressive.

InSpatio Team, Xiaoyu Zhang, Weihong Pan, Zhichao Ye, Jialin Liu, Yipeng Chen, Nan Wang, Xiaojun Xiang, Weijian Xie, Yifu Wang, Haoyu Ji, Siji Pan, Zhewen Le, Jing Guo, Xianbin Liu, Donghui Shen, Ziqiang Zhao, Haomin Liu, Guofeng Zhang

Publié 2026-03-13
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🌍 InSpatio-WorldFM : Le "Moteur de Monde" en Temps Réel

Imaginez que vous voulez créer un univers virtuel (comme dans un jeu vidéo ou un film) où vous pouvez vous déplacer librement, tourner la tête, et voir l'environnement changer instantanément autour de vous. C'est ce que les chercheurs appellent un "modèle de monde".

Jusqu'à présent, la plupart des intelligences artificières (IA) qui faisaient cela fonctionnaient comme un caméraman qui tourne une pellicule. Elles devaient générer les images une par une, dans l'ordre, en se souvenant de la précédente pour créer la suivante. C'est comme si vous deviez écrire un roman, page par page, avant de pouvoir tourner la page suivante. Résultat ? C'est lent, et si vous voulez changer de direction brusquement, l'IA a du mal à suivre, ce qui crée des bugs ou des délais.

InSpatio-WorldFM, c'est une nouvelle approche qui change complètement les règles du jeu.

1. La différence fondamentale : Le Film vs. La Photographie Instantanée

  • L'ancienne méthode (Modèles vidéo) : C'est comme un train. Chaque wagon (image) est attaché au précédent. Pour avancer, tout le train doit bouger ensemble. Si vous voulez arrêter ou changer de voie, c'est compliqué et ça prend du temps.
  • La nouvelle méthode (InSpatio-WorldFM) : C'est comme un photographe avec un appareil photo ultra-rapide. Peu importe où vous regardez, l'appareil prend une photo parfaite et instantanée de ce que vous voyez, sans avoir besoin de regarder la photo précédente. Chaque image est générée indépendamment, mais elle reste parfaitement cohérente avec le reste du monde.

2. Comment fait-elle ça ? Les deux "Mémoires" du cerveau

Pour que l'IA ne génère pas un monde qui change de forme à chaque photo (comme un cauchemar où les murs bougent), elle utilise deux types de "mémoire" combinés :

  • La Mémoire Explicite (Les Échafaudages) : Imaginez que vous construisez une maison. Avant de peindre les murs, vous avez besoin d'un plan 3D solide, d'échafaudages et de mesures précises. InSpatio-WorldFM utilise des "ancres 3D" (des nuages de points) qui agissent comme ce plan. Cela garantit que si vous tournez à gauche, le mur reste au même endroit géométriquement.
  • La Mémoire Implicite (Le Souvenir Visuel) : C'est comme si vous fermiez les yeux et vous souveniez de la couleur d'un objet que vous avez vu il y a une seconde. L'IA regarde l'image de référence (ce que vous avez vu avant) pour se souvenir des détails fins (la texture du bois, la couleur de la peau) et les appliquer à la nouvelle photo.

En combinant les échafaudages (pour la structure) et le souvenir (pour les détails), l'IA crée un monde qui est à la fois solide et beau, même si vous bougez très vite.

3. L'Entraînement en Trois Étapes (Le Parcours du Combattant)

Pour arriver à ce résultat, les chercheurs ont entraîné l'IA en trois phases, un peu comme un étudiant qui apprend à conduire :

  1. Phase 1 (L'Apprentissage de base) : On donne à l'IA une excellente capacité à dessiner de belles images (comme un artiste talentueux).
  2. Phase 2 (L'Apprentissage de la géométrie) : On lui apprend à comprendre l'espace. On lui montre des vidéos et on lui dit : "Si je me déplace ici, l'image doit ressembler à ça". On lui apprend à utiliser les échafaudages 3D et la mémoire visuelle.
  3. Phase 3 (L'Accélération) : C'est l'étape magique. L'IA était lente car elle faisait beaucoup de calculs pour chaque image. Les chercheurs ont utilisé une technique de "distillation" (comme un résumé ultra-condensé) pour lui apprendre à faire le même travail en 2 étapes seulement au lieu de 50. C'est comme passer d'un calculateur scientifique lent à un super-ordinateur instantané.

4. Pourquoi c'est révolutionnaire ?

  • Vitesse Éclair : Vous pouvez explorer ce monde virtuel en temps réel, comme dans un jeu vidéo, sans aucun délai (latence). C'est possible même sur des cartes graphiques de gamers classiques (pas besoin de super-ordinateurs de la NASA).
  • Stabilité : Même si vous tournez en rond pendant des minutes, les murs ne se déforment pas et les objets ne disparaissent pas.
  • Ouvert à tous : Contrairement à d'autres projets secrets, le code et le modèle sont open-source. N'importe qui peut les télécharger et les utiliser pour créer ses propres mondes.

En résumé

InSpatio-WorldFM est comme un magicien de la réalité virtuelle qui ne dessine plus des films, mais qui peint instantanément chaque nouvelle vue que vous demandez, en s'assurant que tout reste cohérent grâce à un plan 3D invisible et une mémoire visuelle puissante. C'est une étape majeure vers des mondes virtuels que l'on peut explorer librement, sans attendre, directement sur notre ordinateur.