BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

本論文は、既存のテキスト生成モデルが抱える数値制御の欠如を解消するため、物体の位置・サイズ・色を数値パラメータ(バウンディングボックスと RGB 値)で直接指定可能な大規模テキスト - 画像生成モデル「BBQ」を提案し、従来の曖昧なプロンプト反復に代わる直感的な操作と高精度な生成を実現したことを示しています。

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid, Tal Hacham, Eyal Gutflaish, Saar Huberman, Hezi Zisman, David Ruppin, Ron Mokady

公開日 2026-02-25
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

BBQ: 画像生成 AI に「定規」と「色見本」を教えた話

この論文は、**「BBQ(バーベキュー)」**という新しい AI 画像生成モデルについて紹介しています。

これまでの画像生成 AI は、「赤い犬」「右側に猫」といった言葉のイメージで絵を描いていましたが、プロのデザイナーや職人が求めるような「ピクセル単位の正確さ」や「指定した色そのもの」を再現するのは苦手でした。

BBQ は、「言葉」だけでなく「数字」を直接理解して絵を描くことができる、画期的な AI です。


🍖 1. BBQ とはどんなもの?(料理の例え)

Imagine(想像してみてください):

  • 従来の AI:シェフに「美味しいステーキを作って」と頼むと、美味しいステーキが出てきます。でも、「厚さを 3cm にして、塩を 2g だけ振って、左端に 1cm 残して」と頼んでも、シェフは「まあ、そんな感じかな?」と推測して作ってしまいます。
  • BBQ:この AI は、「厚さ 3.0cm、塩 2.0g、左端 1.0cm 」という数値のレシピをそのまま理解して、完璧に再現してくれます。

この「数値のレシピ」こそが、**「バウンディングボックス(物体の位置と大きさ)」「RGB(色の数値)」**です。

📐 2. 何がすごいのか?(3 つのポイント)

① 位置と大きさを「定規」で測るように指定できる

これまでの AI は「左下隅に」と言われても、だいたいその辺りに描くだけで、正確な位置はバラバラでした。
BBQ は、**「左上の座標は (10, 20)、右下は (50, 80)」**という数字を聞けば、定規で測ったように、その枠の中にしか物を描きません。

  • 例え:絵画のキャンバスに、**「ここに人物を配置して、ここには犬を配置して」**と、枠線(バウンディングボックス)を引いて渡せば、AI はその枠から少しもはみ出さずに描きます。

② 色を「色見本」のように正確に出せる

「鮮やかな赤」や「暗い青」という言葉は、人によってイメージが違います。
BBQ は、**「R:255, G:0, B:0」という色の数値(RGB)**を聞けば、その色見本と全く同じ色を再現します。

  • 例え:パレットから「この色(数値)を使って」と渡せば、AI はその色を完璧に使い分けます。「赤い服」ではなく「#FF0000 の服」と指定すれば、その色になります。

③ 部分的な修正が「パズル」のように簡単

これが最もすごい点です。BBQ は、「位置」と「色」と「中身」を分けて考えています(解離性)

  • 従来の AI:「犬を右に動かして」と頼むと、AI は「あ、右に動かすんだ」と考えて、画像全体をやり直して、犬の位置だけ変えようとします。すると、背景や他の人物まで変わってしまうことがあります。
  • BBQ:「犬の枠(バウンディングボックス)を右にずらす」という数字だけを書き換えて、AI に「再生成して」と言うと、犬だけスッと右に移動し、背景や他の人物はそのままです。
  • 例え:これは、**「レゴブロック」**を組むような感覚です。赤いブロック(犬)の場所だけ変えても、青いブロック(背景)はそのままです。

🛠 3. どうやって作られたの?(魔法の翻訳機)

ユーザーが「左に赤い犬を」と短く入力しても、AI は直接「左」「赤」という言葉から数値を計算するのは苦手です。
そこで、BBQ の前には**「翻訳機(VLM)」**がいます。

  1. ユーザー:「左に赤い犬」
  2. 翻訳機:これを AI が理解できる**「数値のレシピ(JSON)」**に翻訳します。
    • 「犬」→ 位置 (0, 0) から (30, 50) まで
    • 「赤」→ RGB (255, 0, 0)
  3. BBQ:その数値レシピを受け取って、完璧な絵を描きます。

もしユーザーが「犬を右に動かして」と言ったら、翻訳機が「位置の数値だけ書き換えて」BBQ に渡します。BBQ はその数値に従って、背景を変えずに犬だけ移動させます。

🎯 4. まとめ:なぜこれが重要なのか?

これまでは、AI に思い通りの絵を描かせるには、「もっと左に」「もう少し赤く」と何度も何度も言い直す**「試行錯誤」**が必要でした。

BBQ は、**「プロの職人が使うような正確なツール」**を AI に与えました。

  • ドラッグ&ドロップで物体を動かせる。
  • カラーピッカーで色を指定できる。
  • 数値でサイズを指定できる。

これにより、**「言葉で曖昧に指示する」時代から、「数値で正確に制御する」**時代へと、画像生成の常識が変わろうとしています。まるで、AI が「画家」から「精密な設計図を描ける職人」に進化したようなものです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →