Large Multimodal Models as General In-Context Classifiers

本論文は、大規模マルチモーダルモデル(LMM)がインコンテキスト学習を活用することで対照型モデルと同等以上の分類性能を発揮し、さらに提案するトレーニングフリー手法「CIRCLE」によって不完全な文脈下でもオープンワールド分類を可能にすることを示しています。

Marco Garosi, Matteo Farina, Alessandro Conti, Massimiliano Mancini, Elisa Ricci

公開日 2026-02-27
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 結論:AI の「料理上手」は、実は「レシピ」次第だった!

これまで、画像を分類する AI には 2 種類の「料理人」がいると考えられていました。

  1. CLIP(クリップ)という「プロの料理人」

    • 特徴: 事前に「トマトは赤い、青い空は青い」という**知識(レシピ)**を大量に叩き込まれています。
    • 得意なこと: すぐに「これはトマトだ!」と即答できます。特に、**「決まったメニュー(クラス)」**の中から選ぶ仕事(閉じた世界)が得意です。
    • 弱点: 知らない食材が出ると、パニックになります。
  2. LMM(大型マルチモーダルモデル)という「天才的な料理見習い」

    • 特徴: 知識は CLIP よりも少し少ないですが、「会話」や「文脈」を理解するのが非常に得意です。複雑な料理の注文にも応えられます。
    • 弱点: 画像を見ただけで「何だっけ?」と即答するのは、CLIP よりも下手だと考えられていました。

この論文の発見は:
「見習い(LMM)は、実は**『お手本(例)』を少し見せるだけで、プロ(CLIP)に勝てるほど料理上手になる!**」ということです。


🧩 1. 閉じた世界(決まったメニュー)の話

「お弁当箱の具材を当てるゲーム」

  • CLIP のやり方:
    「具材は『卵、ハム、ブロッコリー』の 3 つだけ!」と決まっているので、画像を見て「これはハムだ!」と即座に言います。
  • LMM(見習い)のやり方:
    最初は「えーと、これ何だっけ?」と迷います。
    しかし! 横に**「これはハム、これは卵」というお手本(例)を 4〜16 枚並べてあげると、見習いは「あ、なるほど!この形はハムなんだ!」と文脈(コンテキスト)から学習**して、プロよりも上手に答えられるようになります。

ポイント:
見習い(LMM)は、**「例題(コンテキスト)」を渡すだけで、驚くほど賢くなります。これを「イン・コンテキスト・ラーニング(文脈学習)」**と呼びます。


🌍 2. 開かれた世界(メニュー表なし)の話

「街で見つけた不思議なものを説明するゲーム」

ここが今回の最大の見せ場です。
「これは何?」と聞かれて、**「正解のリスト(メニュー表)がない」**状況です。

  • 問題点:
    見習い(LMM)に「これは何?」と聞くと、お手本をただ並べただけでは、**「あ、これは『何だっけ?』って思ってるんだな」と勘違いして、「空飛ぶ円盤」とか「魔法の杖」**とか、的外れな答えを言ってしまうことがあります。お手本自体が間違っている可能性もあるからです。

  • 解決策:CIRCLE(サークル)という「自己修正ゲーム」
    著者たちは、**「CIRCLE」**という新しい方法を考え出しました。

    1. まず、見習いにお手本の画像を見て「何だっけ?」と聞きます。
    2. 見習いが「これは『赤い車』かな?」と答えたら、それをメモします。
    3. 次に、そのメモを「お手本」として、他の画像に当てはめて「本当に『赤い車』で合ってる?」と再度確認します。
    4. これを「自分自身の手本を使って、何度も修正する(ループさせる)」作業を繰り返します。

    メタファーで言うと:
    一人の生徒が「これはリンゴだ!」と間違えて書いた答えを、**「他の 15 人の生徒たちと一緒に話し合って、正しい答えに修正していく」**ようなイメージです。

    これにより、見習い(LMM)は**「あ、これはリンゴじゃなくて、桃だった!」**と自分で気づき、プロ(CLIP)よりも正確で、自然な答えを出せるようになりました。


🌟 まとめ:何がすごいのか?

  1. LMM(見習い)は、実は分類が得意だった!
    単に画像を見せるだけじゃダメで、**「例題(コンテキスト)」**を上手に使うことが鍵でした。
  2. CIRCLE(自己修正)が魔法の杖!
    正解のラベルがなくても、**「AI 同士で話し合って、答えを磨き上げる」**だけで、非常に高い精度が出せます。
  3. これからの未来:
    これまで「画像分類には CLIP(プロ)を使おう」と思われていましたが、これからは**「LMM(見習い)に、上手な『例題の出し方』と『自己修正』をさせれば、何でもこなせる万能選手になれる」**ことが証明されました。

一言で言うと:
**「AI に『正解』を教えるんじゃなくて、『例題』を見せながら『一緒に考えさせる』だけで、AI は驚くほど賢く、正確になるんだよ!」**という発見です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →