Each language version is independently generated for its own context, not a direct translation.

🎬 1. 従来の「言葉だけ」の編集の悩み

これまでの動画編集 AI は、ユーザーが「空を青くして」「右の車を消して」と言葉（テキスト）で指示すると、それに応えて編集してくれました。

しかし、言葉には限界があります。

「あの特定の赤い帽子を被らせて」
「この画家の絵のようなタッチにして」

と指示しても、AI は「どの赤？どの帽子？どの画家のタッチ？」と推測するしかなく、**「思っていたのと違う！」**という結果になりがちでした。まるで、遠く離れた友人に「あの美味しいお店の料理を作ってきて」と電話で伝えるようなもの。言葉だけで正確な味を伝えるのは至難の業です。

🖼️ 2. Kiwi-Edit の解決策：「見本（リファレンス）」を使う

Kiwi-Edit は、**「言葉の指示」＋「見本の写真」**の 2 つを組み合わせて編集します。

言葉：「右の男の子の服を変えて」
見本：「この写真の服にしてください」

これにより、AI は「ああ、この服の柄や色、質感をそのまま動画にコピーすればいいんだ！」と正確に理解できます。まるで、料理を作る時にレシピ（言葉）だけでなく、完成した料理の写真（見本）も渡されたようなもので、失敗がぐっと減ります。

🏭 3. 最大の壁を突破：「データ」を自分で作る

この「言葉＋写真」で動画を作る AI を作るには、**「元動画」「指示」「見本写真」「完成動画」**の 4 つがセットになった大量のデータ（教科書）が必要でした。しかし、世の中にはそんな完璧な教科書がほとんどありませんでした。

そこで、研究チームは**「AI 自身に教科書を作らせる」**という天才的なアイデアを実践しました。

既存のデータを集める： すでに存在する「言葉で編集した動画データ」を集めます。
AI に「見本」を作らせる： 「この動画の背景を変えたなら、その背景の写真はこうなるはずだ」と、画像生成 AI に見本写真を自動で生成させます。
品質チェック： 生成された教科書がちゃんとしているか、AI 同士でチェックし、質の高いものだけ 47 万 7 千セット（RefVIE データセット）にまとめました。

これは、「料理のレシピ本（既存データ）」を元に、AI が「完成した料理の写真（見本）」を勝手に描き足して、より完璧な料理本（RefVIE）を完成させたようなものです。

🧠 4. 脳の仕組み：Kiwi-Edit の中身

このシステムは、2 つの「脳」を連携させて動いています。

言語脳（MLLM）： 「何をしたいか」という指示を理解します。
視覚脳（DiT）： 動画そのものを作り出します。

この 2 つをつなぐのが、**「翻訳機（コネクタ）」**です。

言葉の翻訳： 「帽子を被せたい」という言葉を、動画を作る脳がわかる形に変換します。
写真の翻訳： 「見本の写真」の細かい質感や色を、動画にそのままコピーするための情報を抽出します。

さらに、**「動画の骨格を保つ」**ために、元の動画の動きを崩さないようにする特別な仕組みも組み込まれています。まるで、新しい服を着せ替える時、体の動き（骨格）はそのままに、服（テクスチャ）だけを見本通りに変えるような感覚です。

🏆 5. 結果：世界最高峰の編集力

この新しいデータと仕組みを使って訓練した Kiwi-Edit は、既存のどんなオープンソースの AI よりも優れていました。

言葉だけの指示でも： 正確に編集できます。
見本付きの指示でも： 写真の質感や色を完璧に再現できます。

特に、背景を「冬の風景」に変えたり、人物の服を「特定の服」に差し替えたりする作業において、**「まるでプロの編集者が手作業でやったかのような」**自然さを実現しました。

🌟 まとめ

Kiwi-Edit は、**「言葉だけでは伝えきれない『イメージ』を、写真という『見本』で補う」**ことで、動画編集のハードルを劇的に下げた技術です。

これからは、**「この写真の雰囲気で、この動画を編集して」**と一言言うだけで、誰でも映画のようなクオリティの動画編集が可能になるかもしれません。まるで、動画編集の魔法が、より身近で使いやすくなった瞬間です。

Each language version is independently generated for its own context, not a direct translation.

Kiwi-Edit: 指示と参照ガイドによる多用途ビデオ編集の技術的サマリー

本論文「Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance」は、自然言語の指示だけでは表現が困難な複雑な視覚的ニュアンスを、参照画像（Reference Image）と組み合わせて高精度に編集する新しいビデオ編集フレームワークと、そのための大規模データセットを提案するものです。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 背景と問題定義

現在の指示ベースのビデオ編集技術は急速に発展していますが、以下の重大な限界に直面しています。

テキスト指示の曖昧さ: 自然言語は、特定のテクスチャ、正確なオブジェクトのアイデンティティ、微妙なスタイル特性などを記述する際に本質的に曖昧です。「このスポーツカーに置き換える」や「この絵画のスタイルを適用する」といった、視覚的な例を伴う意図をテキストだけで正確に伝えるのは困難です。
参照ガイド付き編集のデータ不足: テキストと参照画像の両方を用いた編集（Instruction-Reference Guided Editing）は理想的な解決策ですが、学習に必要な高品質な「四つ組データ（ソース動画、編集指示、参照画像、ターゲット動画）」が圧倒的に不足しています。既存の大規模データセットの多くは参照画像を含んでおらず、既存の参照ガイド手法はクローズドなプロプライエタリデータに依存しているため、研究コミュニティ全体での進展が妨げられていました。

2. 提案手法 (Methodology)

Kiwi-Edit は、大規模なデータ生成パイプラインと、マルチモーダル条件を統合したユニファイドアーキテクチャの 2 つの柱で構成されます。

2.1. スケーラブルなデータ生成パイプライン (RefVIE Dataset)

既存の指示ベースのビデオ編集データセット（約 370 万サンプル）から、参照画像を合成して高品質な四つ組データ（47.7 万サンプル）を構築する自動化パイプラインを提案しています。

ソース集約とフィルタリング: 既存のデータセット（Ditto, ReCo, OpenVE など）を収集し、EditScore によるフィルタリングで高品質なサンプルを選択。
グラウンディングとセグメンテーション: 編集対象領域を特定するため、Qwen3-VL-32B などの VLM を用いて編集指示に基づき領域を特定し、SAM3 でピクセル単位のセグメンテーションマスクを生成。
参照画像合成: 特定された領域に基づき、Qwen-Image-Edit-2511 などの画像編集モデルを用いて参照画像を生成。
- 背景変更: フォアグラウンドを除去し、背景のみをクリーンに抽出。
- 局所編集: 対象オブジェクトを抽出し、クリーンな背景に配置。
品質管理: 生成された参照画像が編集指示と整合しているか MLLM で検証し、重複除去（De-duplication）を実施。

これにより、RefVIE（Instruction-Reference 対応の大規模オープンソースデータセット）と、その評価用ベンチマークRefVIE-Bench（手動検証済み 110 サンプル）を構築しました。

2.2. ユニファイド編集アーキテクチャ (Kiwi-Edit)

モデルは、マルチモーダルな理解を行うMLLMと、動画生成を行う**Diffusion Transformer **(DiT)を統合した構造です。

セマンティック条件付け (MLLM):
- 凍結された Qwen2.5-VL-3B をベースに、LoRA により適応。
- Query Connector: 学習可能なクエリトークンを用いて編集意図（指示）を抽出。
- Latent Connector: 参照画像から視覚的特徴を抽出。
- これらを結合し、DiT のクロスアテンション層に「コンテキストトークン」として注入。
構造的条件付け (Latent Injection):
- ソース動画制御: ソース動画の潜在特徴を、学習可能な時間依存スカラー $\gamma(t)$ で調整し、ノイズ潜在変数に要素ごとの加算（Element-wise Add）で注入。これにより、動画の構造と時間的一貫性を維持しつつ編集を可能にします。
- 参照画像制御: 参照画像の特徴を、入力シーケンスに連結（Concatenation）して注入。これにより、参照画像のテクスチャや詳細を高精度に転写します。
トレーニングカリキュラム:
1. MLLM-DiT 整合: 画像編集タスクで MLLM と DiT の間の意味的マッピングを確立。
2. 指示チューニング: 大規模なテキストベースの編集データで一般化能力を学習。
3. 参照ガイド微調整: RefVIE データセットを用いて、参照画像に基づく微細な制御能力を強化。

3. 主要な貢献

RefVIE データセットの構築: 指示と参照画像の両方に対応する、大規模（47.7 万）かつ高品質なオープンソースデータセットを初めて公開。既存の 370 万サンプルから合成パイプラインにより構築。
RefVIE-Bench の確立: 参照適合性、指示遵守、時間的一貫性を評価するための包括的なベンチマーク（110 サンプル）と、MLLM を用いた自動評価プロトコルを提案。
Kiwi-Edit モデルの提案: MLLM と DiT を統合し、学習可能クエリと潜在特徴を組み合わせるユニファイドアーキテクチャ。段階的なトレーニングカリキュラムにより、指示のみおよび参照付きの両タスクで SOTA 性能を達成。

4. 実験結果

指示ベース編集 (OpenVE-Bench):
- 既存のオープンソースモデル（VACE, OmniVideo, InsViE など）や、クローズドソースの Runway Aleph を上回る性能を達成。
- 特に「背景変更」タスクで、Runway Aleph (2.62) を大きく上回る 3.84 のスコアを記録。
指示＋参照ガイド編集 (RefVIE-Bench):
- 商用モデル（Kling-O1, Runway Aleph）と比較し、オープンソースモデルとして最高水準の性能を達成。
- 参照画像との一致度（Reference Similarity）やアイデンティティの一貫性（Identity Consistency）において、Runway Aleph を上回るスコア（全体スコア 3.31 vs 3.29）を記録。
アブレーション研究:
- 時間依存スカラーによるソース動画の加算注入が、構造保存に不可欠であることを確認。
- 参照画像の潜在特徴を連結する方式が、単なるクエリトークンよりも詳細な視覚制御に有効であることを実証。
- 画像データとの共トレーニングが、局所的な編集タスクの精度向上に寄与することを確認。

5. 意義と結論

Kiwi-Edit は、ビデオ編集における「テキストの限界」を「視覚的参照」によって克服する重要な一歩です。

データ中心アプローチ: 高品質な対データが不足する分野において、生成モデルを活用したスケーラブルなデータ合成パイプラインを確立し、研究コミュニティにリソースを提供しました。
制御性の向上: ユーザーが意図する視覚的詳細（特定の服の柄、特定のオブジェクトの形状など）を、参照画像を通じて正確に反映させることを可能にし、動画編集の民主化と高度化に貢献します。
オープンソースの進展: 商用モデルに匹敵する性能をオープンソースで実現し、今後の研究開発の基盤を築きました。

本論文は、指示と参照の両方を活用した次世代のビデオ編集技術の新たな基準（State-of-the-Art）を確立し、すべてのデータ、モデル、コードを公開することで、この分野のさらなる発展を促すものです。

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance