Evaluating Generative Models via One-Dimensional Code Distributions

この論文は、連続的な特徴量に依存する従来の評価指標の限界を克服するため、離散的な視覚トークン空間における分布距離や品質スコアを提案し、大規模ベンチマーク「VisForm」を用いて人間の評価との高い相関を実証するものです。

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が作った絵の『上手さ』をどうやって正しく測るか?」**という難しい問題を、新しい視点から解決しようとするものです。

これまでの評価方法には大きな「落とし穴」があり、この論文はそれを「絵の辞書(トークン)」という別の角度から見ることで解決しました。

以下に、専門用語を排し、身近な例え話を使って解説します。


1. 従来の方法の「落とし穴」:料理の「味」を「栄養成分」で測るようなもの

これまで、AI が作った画像の質を測るには、**「FID(フリード・インセプション・ディスタンス)」**という指標が主流でした。
これは、AI が「何を描いたか(意味)」を重視するように訓練されたカメラ(特徴量)で画像をスキャンし、その結果を「平均値」や「ばらつき」という数字に変換して比較するものです。

  • 問題点:
    これって、**「料理の美味しさを測るために、食材のカロリーやビタミン含有量だけを測る」**ようなものです。
    • 栄養成分(意味)は同じでも、**「焼き加減(テクスチャ)」「盛り付け(構図)」「香ばしさ(質感)」**が違えば、味(見た目)は全く違いますよね?
    • 従来の方法は、この「味」の部分を無視してしまい、**「意味は合ってるけど、ボケボケで汚い絵」「完璧な絵」を同じように評価してしまったり、逆に「芸術的な抽象画」**を「失敗作」と判定してしまったりします。

2. 新しいアプローチ:絵を「レゴブロック」の並びに変える

この論文のアイデアは、**「絵を『意味』で見るのではなく、絵を構成する『最小の部品(トークン)』の並び方で見る」**というものです。

現代の技術を使えば、どんな複雑な絵も、**「4096 種類のレゴブロック(辞書)」**を組み合わせた「1 列のリスト」に変換できます。

  • 従来の方法: 絵全体を「平均的な色」としてまとめて見る。
  • 新しい方法: 「ここには赤いブロック、隣には青いブロック」という**「ブロックの並び順と組み合わせ」**を詳しくチェックする。

これなら、**「質感(テクスチャ)やスタイル」**も、ブロックの並び方として捉えられるため、人間の目と同じように「綺麗かどうか」を判断しやすくなります。

3. 2 つの新しい「採点ツール」

この「レゴブロックの並び」を使って、2 つの新しい採点ツールを開発しました。

① CHD(コードブックヒストグラム距離):辞書の使い方チェック

  • 何をする?
    「本当の絵」と「AI が作った絵」で、**「どのブロックが何回使われたか(頻度)」「どのブロックが隣り合っているか(文法)」**を比較します。
  • 例え話:
    料理のレシピを比べるようなものです。
    • 「本当の料理」では「塩:1 回、コショウ:2 回」の組み合わせが多い。
    • 「AI の料理」では「塩:100 回、コショウ:0 回」だったり、「塩と砂糖が隣り合っている」ような不自然な組み合わせが多かったりすると、**「この AI は料理の『文法』を間違えている」**と即座にわかります。
    • 特徴: 人間に教える必要がなく、自動的に「不自然さ」を数値化します。

② CMMS(コードミックスチャモデルスコア):傷つけられた絵の「痛さ」を測る

  • 何をする?
    1 枚の絵が「どれくらい綺麗か」を、**「人工的に傷つけたときの変化」**から学習して判定します。
  • 例え話:
    新人の料理人が「どんな料理が美味しいか」を教える代わりに、**「あえて料理に塩を大量に入れたり、焦がしたり、具材をバラバラにしたりした状態」**を見せて、「これなら美味しくないね」と教えます。
    • AI は、「自然な絵」と「人工的にボロボロにした絵」の差を学習します。
    • その結果、**「人間が『汚い』と感じるような絵」**を、人間に教わらずに「低評価」として見抜けるようになります。

4. 「VisForm」という新しいテスト場

これらを検証するために、**「VisForm(ビジョンフォーム)」**という新しいテストセットを作りました。

  • 規模: 21 万枚の画像。
  • 内容: 写真、油絵、アニメ、3D 画像、医療画像、科学図表など、62 種類の異なるジャンルを網羅。
  • 特徴: 従来のテストでは「写真」しか扱えなかったため、アニメや抽象画では評価が狂っていましたが、VisForm はこれら全てをカバーし、専門家が「14 の観点(構図、色、質感など)」で厳しく評価しています。

5. 結果:人間と驚くほど一致する

実験の結果、この新しい方法(CHD と CMMS)は、人間の評価と非常に高い一致率を示しました。

  • 従来の方法(FID など)が「意味は合ってるから OK」と判定した「汚い絵」を、新しい方法は「文法がおかしいから NG」と正しく見抜きました。
  • 写真だけでなく、アニメや絵画など、**「写真っぽくない絵」**に対しても、従来の方法より遥かに正確に評価できました。

まとめ

この論文が伝えたかったことはシンプルです。

「AI の絵の質を測るには、『意味(何を描いたか)』だけでなく、『質感(どう描いたか)』を捉える必要がある。
そのためには、絵を『レゴブロックの並び』として見て、その『文法』や『傷つきやすさ』を分析するのが一番の近道だ。」

これにより、AI が作る絵の「美しさ」や「不自然さ」を、人間と同じ感覚で、かつ客観的に測れるようになりました。