VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

本論文は、視覚的アナロジー推論を評価する大規模ベンチマーク「VOILA」を提案し、現在のマルチモーダル大規模言語モデルが画像間の関係性の理解や高次な推論において人間に比べて大幅に劣っていることを明らかにするとともに、段階的なプロンプト戦略による性能向上の可能性を示しています。

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo, Tejas Gokhale, Chitta Baral, Suren Jayasuriya, Yezhou Yang

公開日 2026-02-26
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

VOILA:AI の「ひらめき力」を測る新しいテスト

こんにちは!今日は、最新の AI(マルチモーダル大規模言語モデル)が、単に画像を「見る」だけでなく、「考える」力がどれくらいあるかを試す、面白い新しい研究についてお話しします。

この研究の名前は**「VOILA(ヴォイラ)」**。フランス語で「ほら、見なさい!」という意味ですが、ここでは「AI のひらめき力を見せつけてください!」という挑戦状のようなものです。

🎨 1. 何をやっているの?「視覚的ななぞなぞ」

Imagine(想像してみてください)。あなたは絵画教室に通っているとします。先生が黒板に 3 つの絵を描きました。

  1. 絵 A:「2 匹の犬が走っている」
  2. 絵 B:「2 匹の猫が走っている」
    • (ここでのルール:「犬」が「猫」に変わりました。でも「2 匹」と「走る」は同じままです)
  3. 絵 C:「4 匹のウサギが泳いでいる」

さて、先生は言います。「A と B の関係と同じように、C から D(4 つ目の絵)を作ってください

AI にこれを解かせようというのが、この VOILA テストの正体です。
AI は、犬と猫の「関係性(種類が変わった)」を理解し、それをウサギの絵に当てはめて、「4 匹のウサギが泳ぐのではなく、走る(あるいは別のアクション)」という新しい絵を自分で描き上げる必要があります。

🕵️‍♂️ 2. 2 つのレベル:「お茶目な先生」と「真面目な先生」

このテストには、2 つの難易度があります。

  • VOILA-ND(真面目な先生)
    絵の中に「関係ない情報」が入っていません。純粋にルールを見つけるだけです。
  • VOILA-WD(お茶目な先生)
    ここがポイントです!絵の中に**「ダミー(おとり)」**が隠されています。
    • 例:「犬が走っている」→「猫が走っている」のルールですが、実は「犬が赤い服を着ている」→「猫が青い服を着ている」という色の変化も描かれています。
    • AI は「色の変化」はルールに関係ない(ダミー)だと見抜いて無視し、「種類の変化」だけをルールとして適用しなければなりません。
    • これができるかどうかが、AI の本当の「賢さ」を試すのです。

📉 3. 結果はどうだった?「AI はまだ人間には敵わない」

残念ながら、現在の最強の AI(GPT-4o や LLaMa 3.2 など)は、このテストで大苦戦しました。

  • 人間:70% 以上の正解率。
  • AI
    • 簡単な問題でも、最高で 29% 程度。
    • 難しい問題(ダミーがある場合)だと、13% 以下にまで落ち込みます。

なぜ AI は失敗するのでしょうか?
AI は「絵を説明する」ことなら得意ですが、「絵と絵の間の『関係性』を抽象的に理解し、それを新しい状況に当てはめて『描く』」という、高度な思考プロセスが苦手なようです。まるで、レシピの本は読めるけど、実際に料理を作ると焦げてしまうようなものです。

🧩 4. 工夫した結果:「階段を登るように」考えさせる

研究者たちは、AI に「いきなり答えを出せ」と言うのではなく、**「Least-to-Most(段階的)」**という方法を試しました。

  • 直接答えさせる:「4 つ目の絵は?」(AI はパニックになる)
  • 階段式にさせる
    1. 「まず、1 枚目と 2 枚目の絵を見て、何が同じで何が変わったか説明して」
    2. 「じゃあ、そのルールを 3 枚目の絵に当てはめて、4 枚目の絵がどうなるか予想して」
    3. 「最後に、その予想した絵を描いて」

このように、小さなステップを踏ませると、AI の正解率は少しだけ上がりました。これは、AI が「一度に全部考えようとすると混乱する」ことを示しています。

💡 5. この研究が教えてくれること

この「VOILA」テストは、AI に**「ひらめき」や「類推(アナロジー)」の力**があるかどうかを測るための、新しい物差しです。

  • 現状:AI は「知識の引き出し」は豊富ですが、「新しい状況でルールを応用する力」はまだ人間に遠く及びません。
  • 未来:このテストを通じて、AI がもっと深く「考える」ことができるようになれば、単なる検索エンジンではなく、本当にクリエイティブなパートナーになれるかもしれません。

まとめると:
VOILA は、AI に「なぞなぞ」を解かせて、その「ひらめき力」をチェックするテストです。今の AI は、なぞなぞの「答え」を覚えているのは得意ですが、「新しいなぞなぞを自分で考えて解く」のはまだ下手くそ。でも、ステップバイステップで考えさせれば、少しは上手くなる!というのが、この研究の結論です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →