Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

Le papier présente Tele-Omni, un cadre unifié multimodal qui intègre des instructions textuelles, visuelles et vidéo pour générer et éditer des vidéos de haute qualité au sein d'un seul modèle, en découplant l'analyse des instructions de la synthèse vidéo grâce à l'utilisation de modèles de langage multimodaux préentraînés et d'un pipeline de données adaptatif.

Jialun Liu, Tian Li, Xiao Cao, Yukuo Ma, Gonghu Shang, Haibin Huang, Chi Zhang, Xiangzhen Chang, Zhiyong Huang, Jiakui Hu, Zuoxin Li, Yuanzhi Liang, Cong Liu, Junqi Liu, Robby T. Tan, Haitong Tang, Qizhen Weng, Yifan Xu, Liying Yang, Xiaoyan Yang, Peng Yu, Shiwen Zhang, Xuelong Li

Publié 2026-02-24
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un réalisateur de cinéma, mais au lieu d'avoir une équipe de 50 personnes, vous avez un seul assistant ultra-intelligent capable de tout faire : écrire le scénario, choisir les décors, diriger les acteurs et même modifier la scène en cours de tournage.

C'est essentiellement ce que propose Tele-Omni, un nouveau système développé par TeleAI pour créer et modifier des vidéos.

Voici une explication simple, avec des images pour mieux comprendre :

1. Le Problème : Des outils séparés et rigides

Jusqu'à présent, créer une vidéo avec l'IA était comme avoir une boîte à outils où chaque tâche nécessitait un outil différent et spécifique.

  • Si vous vouliez créer une vidéo à partir d'un texte, vous utilisiez un outil.
  • Si vous vouliez transformer une photo en vidéo, vous en utilisiez un autre.
  • Si vous vouliez changer la couleur d'un vêtement dans une vidéo existante, vous deviez utiliser un troisième outil complexe, souvent conçu uniquement pour ça.

C'était comme si vous deviez changer de voiture à chaque fois que vous vouliez aller à la boulangerie, puis à la plage, puis faire des courses. C'était lent, compliqué et peu flexible.

2. La Solution : Tele-Omni, le "Couteau Suisse" de la vidéo

Tele-Omni est un système unifié. C'est un seul cerveau capable de comprendre n'importe quelle demande, peu importe la forme qu'elle prend.

L'analogie du Chef d'Orchestre et du Musicien :
Le système Tele-Omni fonctionne comme un duo parfait entre deux experts :

  1. Le Chef d'Orchestre (Le MLLM) : C'est une intelligence artificielle très savante (un grand modèle de langage) qui écoute vos instructions. Vous pouvez lui parler, lui montrer une photo, ou lui donner une vidéo de référence. Il comprend ce que vous voulez (par exemple : "Fais une vidéo de ce chien qui court dans la neige, mais en style cartoon"). Il ne crée pas la vidéo lui-même, il prépare la partition.
  2. Le Musicien (Le Générateur Vidéo) : C'est l'artiste qui joue la musique. Il reçoit la partition du Chef et crée la vidéo image par image. Il est très doué pour que le mouvement soit fluide et réaliste.

La magie opère parce que le Chef et le Musicien travaillent ensemble dans la même pièce, sans barrières.

3. Ce que Tele-Omni peut faire (Les Super-Pouvoirs)

Grâce à cette architecture, Tele-Omni peut faire des choses que les anciens systèmes ne pouvaient pas faire facilement, ou alors seulement séparément :

  • Le "Texte-à-Vidéo" : Vous écrivez une phrase, et la vidéo apparaît.
  • La "Photo-à-Vidéo" : Vous montrez une photo d'un paysage, et vous demandez : "Fais-le bouger", et la vidéo s'anime.
  • Le "Début et Fin" : Vous donnez une photo du début et une photo de la fin d'une action (par exemple, une personne assise puis debout), et le système invente tout le mouvement intermédiaire de manière naturelle.
  • Le "Montage sur Mesure" : C'est le plus impressionnant. Vous pouvez dire : "Enlève le chapeau de cet homme" ou "Ajoute un chat qui court à côté d'elle". Le système comprend où modifier la vidéo sans tout casser. Il sait distinguer ce qu'il faut garder (le fond, les autres personnes) de ce qu'il faut changer.

4. Comment ça marche ? (La Cuisine des Données)

Pour entraîner ce système, les chercheurs ont dû faire preuve de créativité. Imaginez qu'ils préparent un grand buffet.

  • Au lieu de mélanger tous les plats au hasard (ce qui rendrait le chef confus), ils ont organisé les ingrédients par "type de tâche".
  • Ils ont créé un langage commun pour que le système comprenne qu'une demande comme "Change la couleur du ciel" (modification) et "Crée un ciel bleu" (création) sont liées.
  • Cela permet au système d'apprendre à la fois à créer du vide et à modifier l'existant, tout en gardant une cohérence parfaite (les objets ne disparaissent pas, les mouvements restent fluides).

En résumé

Tele-Omni, c'est comme passer d'une boîte à outils remplie de marteaux, de tournevis et de scies séparés, à une baguette magique unique.

Vous pouvez dire à cette baguette : "Voici une photo de moi, transforme-moi en super-héros volant dans une ville futuriste, mais garde mon visage." Et elle le fait, en comprenant à la fois votre texte, votre image de départ et votre intention de modification, le tout en une seule fois, sans avoir besoin de changer d'outil.

C'est une avancée majeure qui rend la création de vidéos par IA plus naturelle, plus flexible et plus proche de la façon dont les humains imaginent les choses.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →