Helios: Real Real-Time Long Video Generation Model

Le papier présente Helios, un modèle de génération vidéo autoregressif de 14 milliards de paramètres capable de produire des vidéos à l'échelle de la minute en temps réel sur une seule carte graphique H100, tout en éliminant le dérive temporelle et en réduisant considérablement les coûts computationnels grâce à des stratégies d'entraînement innovantes et des optimisations d'infrastructure.

Shenghai Yuan, Yuanyang Yin, Zongjian Li, Xinwei Huang, Xiao Yang, Li Yuan

Publié 2026-03-05
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de dessiner une histoire en continu, image par image, sans jamais vous arrêter. C'est ce que font les modèles de génération de vidéo actuels. Mais souvent, plus l'histoire avance, plus le dessin devient bizarre : les couleurs changent, les personnages se déforment, ou l'histoire oublie où elle en était. C'est ce qu'on appelle le "dérive" (drifting).

Hélios, c'est un nouveau modèle de 14 milliards de paramètres (une taille énorme !) qui a résolu ce problème de manière spectaculaire. Voici comment il fonctionne, expliqué simplement :

1. Le Problème : Le Dessin qui s'efface

Les anciens modèles étaient comme un artiste qui oublie ce qu'il a dessiné il y a 5 minutes. Pour corriger cela, ils utilisaient des astuces lourdes et lentes (comme relire tout le dessin à chaque fois ou utiliser des mémoires externes). Résultat : générer une vidéo de 5 secondes prenait des dizaines de minutes, et la qualité baissait si on essayait de faire plus long.

2. La Solution Hélios : Le Camion de Déménagement Intelligent

Hélios est comme un déménageur ultra-efficace qui ne jette rien, mais qui sait exactement quoi garder et quoi résumer.

  • La Mémoire à Trois Niveaux (Multi-Term Memory) :
    Imaginez que vous regardez un film. Pour comprendre la scène actuelle, vous avez besoin de :

    1. Ce qui s'est passé tout de suite avant (le mouvement immédiat).
    2. Ce qui s'est passé il y a un moment (l'action en cours).
    3. Le début de l'histoire (le contexte global).

    Hélios ne garde pas toutes les images passées en haute définition (ce qui serait trop lourd). Il garde les images récentes en haute qualité, mais il résume les images anciennes en "brouillons" ou en "croquis". Cela lui permet de se souvenir de tout l'histoire sans s'essouffler, comme si vous aviez une bibliothèque infinie où les vieux livres sont résumés sur une carte postale, mais toujours consultables.

  • L'Ancre de Départ (First Frame Anchor) :
    Pour éviter que les couleurs ne changent (par exemple, un ciel bleu qui devient soudainement vert), Hélios garde toujours la toute première image comme une "boussole". Peu importe combien de temps la vidéo dure, il compare tout le reste à cette première image pour rester cohérent. C'est comme si un capitaine gardait toujours le cap sur le point de départ pour ne pas se perdre en mer.

  • L'Entraînement "Réaliste" (Frame-Aware Corrupt) :
    Habituellement, on entraîne les robots avec des vidéos parfaites. Mais dans la réalité, les vidéos ont des défauts (flou, bruit). Hélios est entraîné avec des vidéos "abîmées" volontairement pendant l'apprentissage. C'est comme un étudiant qui s'entraîne avec des exercices difficiles et imparfaits : quand il passe l'examen final (la vraie vidéo), il est beaucoup plus robuste et ne panique pas face aux erreurs.

3. La Vitesse : Un F1 au lieu d'une Voiture de Course

Le plus impressionnant, c'est la vitesse.

  • Les modèles précédents de cette taille (14 milliards de paramètres) étaient comme des camions de déménagement : puissants, mais très lents. Il fallait des heures pour faire une vidéo.
  • Hélios est comme un F1. Il génère de la vidéo en temps réel (19,5 images par seconde) sur une seule carte graphique puissante (H100).
  • Comment ? Il utilise une technique de "pyramide". Au lieu de dessiner toute la vidéo en haute définition d'un coup, il commence par un croquis rapide et flou (basse résolution), puis il affine progressivement les détails, comme un sculpteur qui commence par une grosse pierre et finit par les détails fins. Cela économise énormément de temps.

4. Les Résultats : Une Vidéo Infinie et Stable

Grâce à ces astuces, Hélios peut générer des vidéos de plusieurs minutes (voire infinies) sans que l'image ne se dégrade, sans que les personnages ne changent de visage, et sans que l'histoire ne devienne folle.

  • Qualité : Il est aussi beau que les meilleurs modèles actuels, mais beaucoup plus rapide.
  • Polyvalence : Il peut créer une vidéo à partir d'un texte, à partir d'une image, ou continuer une vidéo existante, le tout avec le même cerveau.
  • Accessibilité : Il fonctionne sur une seule machine, sans avoir besoin d'une ferme de serveurs géants.

En résumé :
Hélios est le premier modèle capable de raconter une histoire visuelle infinie, en temps réel, sans jamais oublier le début de l'histoire ni se tromper de couleur, le tout en tenant dans la poche (virtuelle) d'un seul ordinateur puissant. C'est un pas de géant vers des mondes virtuels interactifs où vous pourriez générer des films à la demande, instantanément.