Helios: Real Real-Time Long Video Generation Model

Helios は、140 億パラメータのモデルでありながら単一 H100 GPU で 19.5 FPS のリアルタイム生成を実現し、特別な加速技術や並列フレームワークなしに数分間の長動画生成を可能にする画期的なモデルです。

Shenghai Yuan, Yuanyang Yin, Zongjian Li, Xinwei Huang, Xiao Yang, Li Yuan

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

ヘリオス(Helios):動画生成の「新時代」を開いた 140 億パラメータの超高速モデル

この論文は、**「ヘリオス(Helios)」**という、画期的な動画生成 AI モデルを紹介しています。

一言で言うと、**「これまで『高画質』と『超高速』は両立できないと思われていたのに、ヘリオスはその常識を覆し、140 億パラメータ(非常に巨大な頭脳)を持ちながら、1 秒間に約 20 枚の画像を生成できる超高速モデル」**です。

まるで、**「高級スポーツカーのエンジン(高画質)を搭載しながら、原付バイク並みの軽さで走る」**ようなものです。

以下に、専門用語を避け、身近な例えを使って分かりやすく解説します。


1. 何がすごいのか?(3 つのブレークスルー)

ヘリオスが他のモデルと違う点は、大きく分けて 3 つあります。

① 「長編映画」でも狂わない(ドリフト対策)

  • 問題点: 従来の AI は、短い動画(5 秒〜10 秒)なら綺麗ですが、長く続けると「顔が歪む」「色が変になる」「同じ動きを繰り返す」などの**「ドリフト(狂い)」**が起きやすくなります。
  • ヘリオスの解決策:
    • 最初の 1 枚を「羅針盤」にする: 動画の最初のフレームを常に記憶し、それが「基準点(アンカー)」として機能するようにしています。これにより、時間が経ってもキャラクターの顔や色がぶれるのを防ぎます。
    • あえて「汚れた過去」を学習する: 訓練中に、過去の映像にわざとノイズや明るさの変化を加えて学習させます。これにより、「過去の映像が少し汚れていても、未来を正しく描ける強さ」を身につけました。
    • 結果: 特別な裏技を使わずに、数分間の動画でも自然で安定した映像を作り出します。

② 「リアルタイム」で描ける(超高速化)

  • 問題点: 高画質な動画を作るには、通常「1 枚描くのに数分」かかります。これはゲームやライブ配信など、リアルタイムで反応したい用途には遅すぎます。
  • ヘリオスの解決策:
    • 記憶の圧縮術: 過去の映像(歴史)や、これから描く映像(ノイズ)を、AI が理解しやすいように「要約」して圧縮します。
      • 例え: 過去の 100 枚の写真を、重要な部分だけを残して「スライドショー」のように圧縮して見せるイメージです。
    • ピラミッド方式: 最初は粗い絵(低解像度)で全体の構図を決め、徐々に細部(高解像度)を足していく方法を採用。無駄な計算を省いています。
    • 結果: 140 億パラメータという巨大なモデルでありながら、1 秒間に約 19.5 枚の画像を生成。これは、従来の小さなモデル(13 億パラメータ)よりも速い驚異的な速度です。

③ 「1 台の PC」で動く(効率化)

  • 問題点: これほどの巨大モデルを動かすには、通常、何十台もの高性能 GPU(計算機)を並べる必要があります。
  • ヘリオスの解決策:
    • メモリ管理の天才: 計算に必要なデータを、必要な時だけメモリに読み込み、不要になったら即座に捨てるなどの工夫を凝らしました。
    • 結果: 1 台の高性能 GPU(NVIDIA H100)だけで、この巨大モデルをトレーニングも推論(生成)もできてしまいます。これにより、開発コストが劇的に下がります。

2. 具体的な仕組み:3 つの魔法の道具

ヘリオスがこれを実現するために使った 3 つの「魔法の道具」を紹介します。

  1. 「統一された歴史の注入」 (Unified History Injection)

    • イメージ: 「過去の続きを描く」ための共通の言語。
    • 説明: テキストから動画(T2V)、画像から動画(I2V)、動画から動画(V2V)まで、すべてを「過去の映像+新しいノイズ」という同じ形式で扱えるようにしました。これにより、一つのモデルで何でも作れるようになります。
  2. 「ガイドアテンション」 (Guidance Attention)

    • イメージ: 「過去の映像」を邪魔せず、未来の映像を導く「指揮者」。
    • 説明: 過去の映像(すでに完成している部分)と、これから描く映像(ノイズの部分)を混同させません。過去の映像は「ノイズを消す作業」には参加せず、「未来の映像をどう描くか」を指示する役割だけを果たします。これにより、過去の映像が壊れるのを防ぎます。
  3. 「敵対的階層蒸留」 (Adversarial Hierarchical Distillation)

    • イメージ: 「名人(先生)」から「弟子(学生)」へ、短時間で技術を伝授する修行。
    • 説明: 通常、高画質にするには 50 回以上の計算ステップが必要ですが、ヘリオスはこれを3 回にまで減らしました。
      • 高画質な「先生モデル」が描いた正解を、弟子モデルが真似しながら、さらに「リアルなデータ」を使って修正を加える(敵対的学習)ことで、短ステップでも高画質を実現しました。

3. 実際の効果は?

  • 短編動画: 既存の「高画質モデル」と同等かそれ以上の美しさ。
  • 長編動画: 1440 フレーム(約 1 分半)の動画でも、キャラクターの顔が崩れたり、色が飛んだりせず、安定しています。
  • 速度: 140 億パラメータのモデルが、1 秒間に 19.5 枚生成。これは、同じサイズの他のモデルの50 倍以上、あるいは一部の小さなモデルよりも速い速度です。

4. まとめ:なぜこれが重要なのか?

これまでの動画生成 AI は、「高画質なら遅い」「速いなら画質が悪い」「長い動画なら狂う」という**「3 つのジレンマ」**に悩まされていました。

ヘリオスは、**「高画質・超高速・長時間・低コスト」**をすべて叶えた最初のモデルです。

  • ゲーム開発者: リアルタイムで NPC の動きや背景を生成可能に。
  • クリエイター: すぐにフィードバックが得られ、試行錯誤が容易に。
  • 一般ユーザー: 高価なサーバーがなくても、自分の PC で高品質な動画が作れる未来が近づきました。

この技術は、単なる「動画生成」を超え、**「世界をシミュレートするモデル(World Model)」**への第一歩とも言える画期的な成果です。