Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing

本論文は、テキスト、画像、参照動画などの多様なモダリティ入力を単一モデルで処理し、指令解析と動画合成を分離することで、動画生成および編集の多様なタスクを統合的に実行する新しいフレームワーク「Tele-Omni」を提案しています。

Jialun Liu, Tian Li, Xiao Cao, Yukuo Ma, Gonghu Shang, Haibin Huang, Chi Zhang, Xiangzhen Chang, Zhiyong Huang, Jiakui Hu, Zuoxin Li, Yuanzhi Liang, Cong Liu, Junqi Liu, Robby T. Tan, Haitong Tang, Qizhen Weng, Yifan Xu, Liying Yang, Xiaoyan Yang, Peng Yu, Shiwen Zhang, Xuelong Li

公開日 2026-02-24
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🎬 Tele-Omni:動画制作の「万能魔法の杖」

こんにちは!今日は、TeleAI 社が発表した新しい AI 技術**「Tele-Omni(テレ・オムニ)」**について、難しい専門用語を使わずに、わかりやすく解説します。

この技術を一言で言うと、**「動画を作る仕事も、編集する仕事も、すべてを 1 つの AI がこなす『万能の魔法使い』」**です。


🌪️ 今までの問題点:「道具が多すぎて大変!」

これまでの動画 AI は、まるで**「料理人」がそれぞれ別の道具しか持っていない**ような状態でした。

  • テキストから動画を作りたい? → 「テキスト専用鍋」が必要。
  • 写真から動画を作りたい? → 「写真専用フライパン」が必要。
  • 動画の一部を消したい? → 「消しゴム専用包丁」が必要。
  • 動画のスタイルを変えたい? → 「色変え専用スプーン」が必要。

ユーザーは「何を作りたいか」によって、毎回違う道具(AI モデル)を探し出し、使い方を覚えなければなりませんでした。しかも、複雑な指示(「この写真のキャラを、あの動画の動きで、アニメ調にしてね」など)を一度に伝えるのは難しかったのです。

✨ Tele-Omni の登場:「万能の魔法の杖」

Tele-Omni は、**「1 本の魔法の杖」**で全てを解決します。

この杖(AI)は、**「言葉(テキスト)」「写真」「参考動画」**など、どんな形での指示でも受け取ることができます。そして、その指示を理解して、動画の「生成(ゼロから作る)」も「編集(書き換える)」も、1 つのシステムの中で自由自在に行います。


🧠 どうやって動くの?2 人のパートナー

Tele-Omni は、実は 2 人の天才がタッグを組んで動いています。

1. 「理解役の天才(MLLM)」

  • 役割: 監督や翻訳者。
  • 仕事: ユーザーから「帽子を被せたい」「雨の日にしたい」という指示(テキストや写真)を受け取ります。そして、**「何を、どう変えればいいか」**という「設計図」を頭の中で組み立てます。
  • 特徴: 動画そのものは作れませんが、「何を作りたいか」を完璧に理解するのが得意です。

2. 「実行役の天才(DiT)」

  • 役割: 職人、あるいは魔法使い。
  • 仕事: 理解役から渡された「設計図」を見て、実際に美しい動画を動かしたり、書き換えたりします。
  • 特徴: 非常に高い技術力で、動画がカクついたり、変な形になったりしないように、滑らかに作ります。

🎭 仕組みのイメージ:
ユーザーが「この写真の猫を、空を飛ぶようにして」と言うと、

  1. 理解役が「猫を空に浮かせる動きの設計図」を描く。
  2. 実行役がその設計図を見て、猫が空を飛ぶ動画を作り上げる。
    この連携が、**「指示と実行を分ける」**ことで、どんな複雑な指示にも柔軟に対応できるのです。

🎨 できること:まるで魔法のような 5 つの技

Tele-Omni は、以下のようなことができるようになります。

  1. 📝 テキストから動画(Text-to-Video)
    • 「静かな森で鹿が走る動画を作って」と書くだけで、ゼロから動画が生まれます。
  2. 🖼️ 写真から動画(Image-to-Video)
    • 静止画の写真を渡すと、「この写真が動き出す」ように、生き生きとした動画にします。
  3. 🎬 最初と最後のフレームから動画(First-Last-Frame)
    • 「スタートの姿」と「ゴールの姿」の 2 枚の写真を渡すと、その間の動きを AI が勝手に想像して補完してくれます。まるで映画の脚本家が、2 枚の絵から物語を完成させるような感じです。
  4. 🎭 動画の編集(Video Editing)
    • 「この人物の服を赤く変えて」「背景を雪景色にして」「不要な人を消して」といった指示で、動画の一部だけを自由自在に書き換えます。
  5. 🧩 文脈を考慮した編集(In-Context Editing)
    • 「この写真のキャラクターを、この動画の中に登場させて」と指示すると、写真のキャラクターが動画の世界に自然に溶け込み、動きながら登場します。

🧪 裏側の工夫:「料理のレシピ」を統一した

なぜこれほど多様なことができるのでしょうか?
それは、**「データの作り方」**を工夫したからです。

これまで、動画生成と動画編集は「別の料理(タスク)」として扱われていましたが、Tele-Omni は**「すべての料理を、同じ『レシピ形式』で教える」**ことに成功しました。

  • 「何を」「どう変えるか」という指示を、AI が共通の言語で理解できるように統一しました。
  • これにより、AI は「生成」と「編集」の区別を気にせず、**「ユーザーの意図」**だけを重視して動けるようになりました。

🚀 まとめ

Tele-Omni は、**「動画を作る・編集する」という複雑な作業を、誰でも直感的に、そして高品質に行えるようにする「未来のツール」**です。

これまでは「専門知識」や「複数のツール」が必要だった動画制作が、これからは**「言葉や写真で指示するだけ」**で実現できるようになります。まるで、映画監督が魔法の杖を振るだけで、どんな映像も思い通りに作れるようになるような、ワクワクする技術です!

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →