SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI が画像を作るのを「魔法」ではなく「工学的な仕事」に変えるための、新しい**「レシピ本（SCHEMA）」**の紹介です。

著者のルカ・カッツァニガさんは、Google の最新 AI「Gemini 3 Pro Image（通称：ナノ・バナナ・プロ）」を使って、不動産や広告、新聞の図解など、プロの現場で使えるレベルの画像を数千枚作りました。そして、その経験から**「どうすれば AI が思い通りの絵を描いてくれるか」**という、誰でも使えるルールを見つけたのです。

これをわかりやすく、3 つの大きなポイントで説明します。

1. 「おまかせ」から「指揮者」へ：3 つのレベル

この方法は、AI への指示の出し方を 3 つの段階に分けています。

レベル 1：おまかせモード（BASE）
- イメージ： 料理の味見をするようなもの。
- 内容： 「美味しいパスタを作って」とだけ言います。AI が「えっ、どんなパスタ？」「どんな味？」と勝手に想像して描きます。これは、AI がどんな癖を持っているかを知るための「実験」です。
レベル 2：方向指示モード（MEDIO）
- イメージ： 料理長が「トマトベースで、バジルを多めに」と指示する状態。
- 内容： 「どんな料理か（主題）」「どんな雰囲気か（スタイル）」「光はどうするか」を 7 つの項目に分けて指示します。これで、プロのクライアントに渡せるレベルの絵が作れるようになります。
レベル 3：完璧な注文モード（AVANZATO）
- イメージ： 高級レストランで「フォークは左、ナイフは右、ナプキンは青、温度は 3000 ケルビン（暖色系）」と、ミリ単位まで指定する状態。
- 内容： 「美しい」ではなく「青い色は#0000FF」「光は 3000 ケルビン」と、数字や具体的なルールで厳密に指示します。これにより、AI の「勘違い」や「ハズレ」をほぼゼロに抑え、10 回描かせても 10 回とも同じような高品質な絵が生まれます。

2. 「やってほしいこと」より「やってほしくないこと」の方が得意

これがこの論文の最大の発見です。

従来の常識： 「もっと鮮明に描いて」「文字を正しく書いて」と、**「やってほしいこと（肯定）」**を詳しく説明すればするほど良いはずだ。
SCHEMA の発見： 実際には、**「やってほしくないこと（否定）」**を指示する方が、AI は驚くほど正確に守ります。
- 例：「文字を正しく書いて」よりも**「文字のスペルミスは絶対にしないこと」**と指示する方が、AI は「あ、ミスしちゃダメなんだ」と理解しやすくなります。
- アナロジー： 子供に「走ってはいけない」と言う方が、「ゆっくり歩いて」と言うよりも、子供が「走らない」というルールを明確に守れるのと同じです。AI も「禁止事項（NO 〇〇）」というルールの方が、頭の中で処理しやすいのです。

3. 「リトライ」は NG！一度で完璧を目指す

多くの人は、AI が描いた絵が気に入らなければ、「ちょっと直して」と言って修正を繰り返します。しかし、この論文は**「それはダメ！」**と言っています。

問題点： AI が描いた絵を元に修正を繰り返すと、**「画像が劣化していく」**現象が起きます。
- アナロジー： 写真の写し写しを何回も繰り返すと、だんだんボヤけて汚くなるのと同じです。AI も、自分の描いた絵を「参考画像」として使うと、少しずつ「勘違い」が積み重なって、3 回目くらいにはボロボロになってしまいます。
解決策： 気に入らない場合は、**「最初からやり直す」**のが正解です。指示書（レシピ）を修正して、AI に「ゼロから描き直して」と言います。これがプロの現場での鉄則です。

この方法がすごい理由：なぜ「図解」も描けるの？

この方法を使えば、AI は単に「綺麗な絵」を描くだけでなく、**「文字が正しい図解（インフォグラフィック）」**も作れるようになります。

例：「ここに『AI の未来』という文字を左上に配置し、右下にはグラフを描いて」と指示すると、AI はそのルールを厳密に守って描きます。
結果： 約 300 枚の図解を作った実験では、95% 以上が最初の一発で完璧に完成しました。これは、AI が「絵を描く人」から「設計図を描く職人」に進化できた証拠です。

まとめ

この論文は、AI 画像生成を「運試し」や「魔法」から、**「工学的な設計」**へと変えるための地図です。

指示は「禁止事項」を重視する。
一度で完璧を目指すために、指示を数字で厳密にする。
修正は「書き直し」で、リトライはしない。

これらを守ることで、誰でもプロ並みの AI 画像を生産できるようになる、という画期的なガイドラインです。

SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

1. 「おまかせ」から「指揮者」へ：3 つのレベル

2. 「やってほしいこと」より「やってほしくないこと」の方が得意

3. 「リトライ」は NG！一度で完璧を目指す

この方法がすごい理由：なぜ「図解」も描けるの？

まとめ

SCHEMA for Gemini 3 Pro Image：技術的概要

1. 解決すべき課題 (Problem)

2. 手法：SCHEMA フレームワーク (Methodology)

2.1 設計原則

2.2 3 段階の制御構造

2.3 意思決定ツリーと失敗ルーティング

3. 主要な貢献と発見 (Key Contributions & Findings)

3.1 必須項目と禁止事項の非対称性 (Mandatory/Prohibitions Asymmetry)

3.2 バッチ一貫性の向上 (Batch Consistency)

3.3 反復生成ドリフト (Iterative Generative Drift)

3.4 情報デザインにおける空間・タイポグラフィ制御

4. 結果とデータ (Results)

5. 意義と結論 (Significance)

SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model

1. 「おまかせ」から「指揮者」へ：3 つのレベル

2. 「やってほしいこと」より「やってほしくないこと」の方が得意

3. 「リトライ」は NG！一度で完璧を目指す

この方法がすごい理由：なぜ「図解」も描けるの？

まとめ

SCHEMA for Gemini 3 Pro Image：技術的概要

1. 解決すべき課題 (Problem)

2. 手法：SCHEMA フレームワーク (Methodology)

2.1 設計原則

2.2 3 段階の制御構造

2.3 意思決定ツリーと失敗ルーティング

3. 主要な貢献と発見 (Key Contributions & Findings)

3.1 必須項目と禁止事項の非対称性 (Mandatory/Prohibitions Asymmetry)

3.2 バッチ一貫性の向上 (Batch Consistency)

3.3 反復生成ドリフト (Iterative Generative Drift)

3.4 情報デザインにおける空間・タイポグラフィ制御

4. 結果とデータ (Results)

5. 意義と結論 (Significance)

関連論文

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation