Each language version is independently generated for its own context, not a direct translation.
🎬 1. 従来の「言葉だけ」の編集の悩み
これまでの動画編集 AI は、ユーザーが「空を青くして」「右の車を消して」と言葉(テキスト)で指示すると、それに応えて編集してくれました。
しかし、言葉には限界があります。
- 「あの特定の赤い帽子を被らせて」
- 「この画家の絵のようなタッチにして」
と指示しても、AI は「どの赤?どの帽子?どの画家のタッチ?」と推測するしかなく、**「思っていたのと違う!」**という結果になりがちでした。まるで、遠く離れた友人に「あの美味しいお店の料理を作ってきて」と電話で伝えるようなもの。言葉だけで正確な味を伝えるのは至難の業です。
🖼️ 2. Kiwi-Edit の解決策:「見本(リファレンス)」を使う
Kiwi-Edit は、**「言葉の指示」+「見本の写真」**の 2 つを組み合わせて編集します。
- 言葉:「右の男の子の服を変えて」
- 見本:「この写真の服にしてください」
これにより、AI は「ああ、この服の柄や色、質感をそのまま動画にコピーすればいいんだ!」と正確に理解できます。まるで、料理を作る時にレシピ(言葉)だけでなく、完成した料理の写真(見本)も渡されたようなもので、失敗がぐっと減ります。
🏭 3. 最大の壁を突破:「データ」を自分で作る
この「言葉+写真」で動画を作る AI を作るには、**「元動画」「指示」「見本写真」「完成動画」**の 4 つがセットになった大量のデータ(教科書)が必要でした。しかし、世の中にはそんな完璧な教科書がほとんどありませんでした。
そこで、研究チームは**「AI 自身に教科書を作らせる」**という天才的なアイデアを実践しました。
- 既存のデータを集める: すでに存在する「言葉で編集した動画データ」を集めます。
- AI に「見本」を作らせる: 「この動画の背景を変えたなら、その背景の写真はこうなるはずだ」と、画像生成 AI に見本写真を自動で生成させます。
- 品質チェック: 生成された教科書がちゃんとしているか、AI 同士でチェックし、質の高いものだけ 47 万 7 千セット(RefVIE データセット)にまとめました。
これは、「料理のレシピ本(既存データ)」を元に、AI が「完成した料理の写真(見本)」を勝手に描き足して、より完璧な料理本(RefVIE)を完成させたようなものです。
🧠 4. 脳の仕組み:Kiwi-Edit の中身
このシステムは、2 つの「脳」を連携させて動いています。
- 言語脳(MLLM): 「何をしたいか」という指示を理解します。
- 視覚脳(DiT): 動画そのものを作り出します。
この 2 つをつなぐのが、**「翻訳機(コネクタ)」**です。
- 言葉の翻訳: 「帽子を被せたい」という言葉を、動画を作る脳がわかる形に変換します。
- 写真の翻訳: 「見本の写真」の細かい質感や色を、動画にそのままコピーするための情報を抽出します。
さらに、**「動画の骨格を保つ」**ために、元の動画の動きを崩さないようにする特別な仕組みも組み込まれています。まるで、新しい服を着せ替える時、体の動き(骨格)はそのままに、服(テクスチャ)だけを見本通りに変えるような感覚です。
🏆 5. 結果:世界最高峰の編集力
この新しいデータと仕組みを使って訓練した Kiwi-Edit は、既存のどんなオープンソースの AI よりも優れていました。
- 言葉だけの指示でも: 正確に編集できます。
- 見本付きの指示でも: 写真の質感や色を完璧に再現できます。
特に、背景を「冬の風景」に変えたり、人物の服を「特定の服」に差し替えたりする作業において、**「まるでプロの編集者が手作業でやったかのような」**自然さを実現しました。
🌟 まとめ
Kiwi-Edit は、**「言葉だけでは伝えきれない『イメージ』を、写真という『見本』で補う」**ことで、動画編集のハードルを劇的に下げた技術です。
これからは、**「この写真の雰囲気で、この動画を編集して」**と一言言うだけで、誰でも映画のようなクオリティの動画編集が可能になるかもしれません。まるで、動画編集の魔法が、より身近で使いやすくなった瞬間です。