Each language version is independently generated for its own context, not a direct translation.

この技術報告書「Wallaroo」について、難しい専門用語を排し、誰でもわかるような比喩を使って日本語で解説します。

🦏 Wallaroo（ワラルー）：何でも屋の「魔法の絵本」

この論文で紹介されているのは、**「Wallaroo（ワラルー）」**という新しい AI モデルです。
名前の通り、オーストラリアの袋鼠（ワラルー）のように、ジャンプ力（生成力）と知恵（理解力）の両方を持つ、非常にタフで多才な存在を目指しています。

これまでの AI は、「絵を描く人」と「絵を見て説明する人」が別々だったり、あるいは「絵を描く人」が「説明」を苦手だったりしました。しかし、Wallaroo は**「一つの頭脳で、絵を見て理解し、新しい絵を描き、さらに既存の絵を修正する」**という、まるで万能な魔法使いのような役割を担います。

🎨 3 つの魔法の能力

Wallaroo が得意とする 3 つのことは、以下のようなイメージです。

👁️ 理解する（目）
- 「この写真には何が入っている？」「この図表から何が読み取れる？」といった質問に、人間のように答えます。
🖌️ 描く（手）
- 「青い空に白い雲、赤いリンゴ」という言葉だけを聞いて、ゼロから美しい絵を描き出します。
✂️ 直す（ハサミ）
- 「リンゴをオレンジに変えて」「空を夕焼けにして」という指示で、既存の絵を部分的に書き換えます。

これら 3 つを、**「次の単語を予測する（Next-token prediction）」**という、非常にシンプルで基本的な仕組みだけで実現しているのがこの研究のすごいところです。

🏗️ どうやって作られたの？（4 つのトレーニング段階）

Wallaroo を作るために、研究者たちは 4 つの段階で「修行」させました。

第 1 段階：描く練習（Alignment）
- まず、新しい「描くための道具（アダプター）」を取り付け、既存の AI に「絵を描く感覚」を少しだけ教え込みます。
第 2 段階：理解と描きの両立（Joint Pretraining）
- 「絵を見て説明する」練習と「言葉から絵を描く」練習を同時に行います。ここで、AI は「見る」と「描く」のバランスを学びます。
第 3 段階：サイズと解像度の調整（Scaling）
- 最初は小さな絵（384x384 ピクセル）から描き始め、徐々に大きな絵（512x512 ピクセル）や、様々なサイズの絵を描けるように練習します。
- アナロジー： 最初はスケッチブックに小さく描き、次に大きなキャンバスで、さらに縦長や横長の絵にも対応できるようにする感じです。
第 4 段階：仕上げの微調整（Unified Fine-tuning）
- 最後は、理解・生成・編集の 3 つをすべて混ぜたデータで最終調整。特に「絵を直す（編集）」という難しいスキルを、少量の高品質なデータでマスターさせます。

🔑 成功の秘訣：2 つの「目」を使い分ける

Wallaroo が他のモデルと違う最大の特徴は、「見る目」と「描く目」を分けている点です。

理解用（目）： 写真の「意味」や「文脈」を理解するために、高品質なカメラ（NaViT）を使います。
生成用（手）： 絵を「描く」ために、ピクセルをブロック（トークン）に分解する専用の道具（VQ トークナイザー）を使います。

これらを分けることで、「意味を理解する」という複雑な仕事と、「ピクセルを並べる」という単純な仕事が混ざり合って混乱するのを防いでいます。

🎭 編集（リタッチ）の秘密：
面白いことに、絵を「直す」作業では、この 2 つの目を同時に使います。「意味（高レベル）」と「細部（低レベル）」の両方の情報を混ぜて入力することで、より自然な修正が可能になります。これは、これまでの AI 研究ではあまり試されていなかった新しいアプローチです。

📊 結果はどうだった？

実験の結果、Wallaroo は以下のような成果を上げました。

競争力のある性能： 既存の最先端モデルと比べても引けを取らない、あるいはそれ以上のパフォーマンスを発揮しました。
多言語対応： 日本語と中国語の両方を流暢に扱えます。
多様なサイズ： 縦長、横長、四角など、様々なサイズの絵を自在に扱えます。

もちろん、完璧ではありません。特に「絵の細部まで完璧に再現する」という点では、従来の「拡散モデル（Diffusion）」と呼ばれる手法に少し劣る部分もあります。これは、ブロック単位で絵を構成する仕組み上、どうしても細かな情報が少し失われてしまうためです。

💡 まとめ：なぜこれが重要なのか？

これまでの AI は、「見る専門」と「描く専門」を分けるか、あるいは複雑な仕組みで無理やり統合していました。しかし、Wallaroo は**「シンプルな仕組み（次の単語を当てるだけ）で、すべてを統一できる」**ことを証明しました。

これは、人工知能が「人工知能（AGI）」と呼ばれる、人間のように何でもこなす存在になるための、非常にシンプルで強力な第一歩かもしれません。

一言で言うと：

「複雑な魔法の杖はいらない。シンプルで基本的な『次の言葉』を予測する力さえあれば、AI は絵を見て理解し、描き、そして直すという、まるで魔法のようなことができるんだ！」

これが、Wallaroo が伝えたいメッセージです。

Each language version is independently generated for its own context, not a direct translation.

Wallaroo: 単一の自己回帰モデルによる多モーダル理解、画像生成、編集の統合

技術報告書の要約（日本語）

本報告書は、Wallaroo と呼ばれる新しいモデルを提案しています。これは、単純な「次のトークン予測（Next-Token Prediction）」パラダイムを用いて、多モーダル理解、画像生成、画像編集の 3 つのタスクを単一の自己回帰モデルで統合することを目的としたものです。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 背景と問題定義

近年、人工知能（AGI）の実現に向けた重要なステップとして、多モーダル理解と視覚的生成を統合する研究が活発化しています。既存のアプローチは主に 3 つのクラスに分類されますが、それぞれに課題があります。

条件エンコーダとしての多モーダルモデル: 拡散モデルの条件付けに多モーダル理解モデルを使用する手法（例：OmniGen2）。
- 課題: 理解から生成への一方向の情報フローであり、双方向の相互作用が制限される。
トランスフォーマー内での自己回帰と拡散の統合: 両者を並列に統合する手法（例：Bagel）。
- 課題: 拡散ノイズの存在により、情報相互作用の効率が比較的低い。
次のトークン予測による統合: 自己回帰モデルのみを使用する手法（例：Chameleon, Janus）。
- 課題: 視覚トークナイザの性能不足や、理解と生成の視覚エンコーディング間の競合により、性能が制限されることがある。

Wallaroo は、これらの課題を克服し、複雑な構造や拡散ノイズに依存せず、純粋な自己回帰モデル（次のトークン予測）のみで 3 つのタスクを統合する「シンプルなベースライン」を提案します。

2. 提案手法 (Wallaroo)

2.1 アーキテクチャ

Wallaroo は、強力な多モーダルモデルである Qwen2.5 VL をバックボーンとして採用し、最小限の変更で構築されています。

視覚エンコーディングの分離:
- 理解タスク: Qwen2.5 VL 内蔵の NaViT を使用し、高レベルのセマンティックな特徴を抽出。
- 生成タスク: 画像を離散 ID に変換するために、LlamaGen からの VQ トークナイザ（VQVAE）を使用。これにより、理解と生成で異なる視覚経路を確保し、タスク間の競合を回避します。
編集タスクの独自アプローチ:
- 画像編集においては、理解（高レベル）と生成（低レベル）の両方の表現を統合します。具体的には、NaViT と VQ トークナイザの両方から入力画像をエンコードし、それぞれに適したアダプタ（MLP）で次元を揃えて結合します。
- 編集タスク専用の「Edit Head」を導入し、生成タスクとの損失競合を防ぎます。
マルチ解像度対応: 入力・出力画像の解像度を柔軟に扱えるよう、特殊トークン <hw_info>（高さ・幅情報）と <eol>（行末）トークンを導入しています。

2.2 4 段階のトレーニング戦略

モデルの能力を再構築するために、以下の 4 段階のトレーニング戦略を採用しています。

段階 1: 予備的生成アライメント
- 新規追加された生成用 MLP アダプタと生成ヘッドのみを学習し、Qwen2.5 VL の表現空間への基本的なアライメントを行います。
段階 2: 理解と生成の共同事前学習
- 多モーダル理解データとテキストから画像（Text-to-Image）データを用いて、表現空間のさらなるアライメントと生成能力の強化を行います。
段階 3: 画像サイズのスケーリングとマルチ解像度適応
- 画像サイズを 384x384 から 512x512 に拡大し、その後マルチ解像度データで学習します。特殊トークンを用いて解像度情報を明示的にモデルに伝達します。
段階 4: 統合ファインチューニング
- 理解、生成、編集の 3 つのタスクを同時にファインチューニングします。高品質な編集データセットを用いて、編集機能を活性化させます。

2.3 学習目的と推論

目的関数: 単純な「次のトークン予測損失（Next-Token Prediction Loss）」のみを使用します。3 つのタスクの損失重みはすべて 1 に設定し、バランスを取っています。
推論: 分類器フリーガイド（CFG）を採用し、生成品質を向上させています（ $\gamma=3$ ）。

3. 主要な貢献

統合の先駆け: 純粋な自己回帰モデル（次のトークン予測）を用いて、多モーダル理解、画像生成、画像編集を単一のモデルで統合した先駆的な試みです。
多機能サポート: 多解像度の画像入出力に対応し、中国語と英語のバイリンガルサポートを提供します。
高性能なベースライン: 広範なベンチマークにおいて、既存の統合モデルと同等かそれ以上の性能を示し、自己回帰モデルが多モーダル統合において大きな可能性を秘めていることを実証しました。

4. 実験結果

4.1 多モーダル理解

ベンチマーク: POPE, MME, MMB, SEED, GQA, MMMU, MM-Vet など。
結果: Qwen2.5 VL と同等の理解性能を維持しつつ、Janus-Pro や OmniGen2 などの既存の統合モデルを上回る性能を示しました（例：MMB で 83.0 点）。生成機能を統合しても理解性能が大幅に低下しないことを示しています。

4.2 画像生成 (Text-to-Image)

ベンチマーク: GenEval, DPG。
結果: Janus-Pro や Show-o2 と競合する性能を達成しました。ただし、拡散ベースのモデル（OmniGen2, BAGEL）にはまだ劣ります。これは VQ エンコーディングによる画像詳細の損失が原因と分析されています。

4.3 画像編集

ベンチマーク: ImgEdit。
結果: 2.92 という総合スコアを達成し、AnyEdit や OmniGen などの純粋な編集モデルを上回りました。ただし、BAGEL や OmniGen2 などの拡散ベースの統合モデルには劣ります。Janus-4o（同様の自己回帰アプローチ）には劣りましたが、これは Wallaroo が「理解・生成・編集」のバランスを重視しているため、編集に特化したモデルよりも性能が落ちる傾向があると考えられます。

5. 考察と意義

自己回帰モデルの可能性: 拡散モデルに依存しない純粋な自己回帰アプローチでも、多モーダルタスクの統合が可能であることを実証しました。
表現の不一致への洞察: 理解（高レベル）と生成（低レベル）の表現間の不一致が課題であるとし、編集タスクがその橋渡し役となり得る可能性を指摘しています。
位置エンコーディングの重要性: 編集タスクにおいて、高レベル表現と低レベル表現の順序や位置エンコーディング（1 次元 vs 2 次元）が性能に大きく影響することが発見されました。
今後の課題: VQ トークナイザによる詳細の損失を解消するため、拡散モデルをポストプロセッシングとして利用するか、より強力な VQ トークナイザを開発する必要性が示唆されています。また、現在のモデルはタスクごとにヘッダーを手動で切り替える必要があるため、文脈に応じた動的なヘッダー選択の自動化が今後の課題です。

結論

Wallaroo は、複雑なアーキテクチャや拡散プロセスを排除し、シンプルで効率的な自己回帰パラダイムによって、多モーダル理解、生成、編集を統合する可能性を証明しました。この研究は、将来の汎用人工知能（AGI）に向けた統合モデルの設計において、自己回帰アプローチが有力な選択肢となり得ることを示唆しています。

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction