Large Multimodal Models as General In-Context Classifiers

Each language version is independently generated for its own context, not a direct translation.

🍳 結論：AI の「料理上手」は、実は「レシピ」次第だった！

これまで、画像を分類する AI には 2 種類の「料理人」がいると考えられていました。

CLIP（クリップ）という「プロの料理人」
- 特徴: 事前に「トマトは赤い、青い空は青い」という**知識（レシピ）**を大量に叩き込まれています。
- 得意なこと: すぐに「これはトマトだ！」と即答できます。特に、**「決まったメニュー（クラス）」**の中から選ぶ仕事（閉じた世界）が得意です。
- 弱点: 知らない食材が出ると、パニックになります。
LMM（大型マルチモーダルモデル）という「天才的な料理見習い」
- 特徴: 知識は CLIP よりも少し少ないですが、「会話」や「文脈」を理解するのが非常に得意です。複雑な料理の注文にも応えられます。
- 弱点: 画像を見ただけで「何だっけ？」と即答するのは、CLIP よりも下手だと考えられていました。

この論文の発見は：
「見習い（LMM）は、実は**『お手本（例）』を少し見せるだけで、プロ（CLIP）に勝てるほど料理上手になる！**」ということです。

🧩 1. 閉じた世界（決まったメニュー）の話

「お弁当箱の具材を当てるゲーム」

CLIP のやり方:
「具材は『卵、ハム、ブロッコリー』の 3 つだけ！」と決まっているので、画像を見て「これはハムだ！」と即座に言います。
LMM（見習い）のやり方:
最初は「えーと、これ何だっけ？」と迷います。
しかし！ 横に**「これはハム、これは卵」というお手本（例）を 4〜16 枚並べてあげると、見習いは「あ、なるほど！この形はハムなんだ！」と文脈（コンテキスト）から学習**して、プロよりも上手に答えられるようになります。

ポイント:
見習い（LMM）は、**「例題（コンテキスト）」を渡すだけで、驚くほど賢くなります。これを「イン・コンテキスト・ラーニング（文脈学習）」**と呼びます。

🌍 2. 開かれた世界（メニュー表なし）の話

「街で見つけた不思議なものを説明するゲーム」

ここが今回の最大の見せ場です。
「これは何？」と聞かれて、**「正解のリスト（メニュー表）がない」**状況です。

問題点:
見習い（LMM）に「これは何？」と聞くと、お手本をただ並べただけでは、**「あ、これは『何だっけ？』って思ってるんだな」と勘違いして、「空飛ぶ円盤」とか「魔法の杖」**とか、的外れな答えを言ってしまうことがあります。お手本自体が間違っている可能性もあるからです。
解決策：CIRCLE（サークル）という「自己修正ゲーム」
著者たちは、**「CIRCLE」**という新しい方法を考え出しました。
1. まず、見習いにお手本の画像を見て「何だっけ？」と聞きます。
2. 見習いが「これは『赤い車』かな？」と答えたら、それをメモします。
3. 次に、そのメモを「お手本」として、他の画像に当てはめて「本当に『赤い車』で合ってる？」と再度確認します。
4. これを「自分自身の手本を使って、何度も修正する（ループさせる）」作業を繰り返します。
メタファーで言うと：
一人の生徒が「これはリンゴだ！」と間違えて書いた答えを、**「他の 15 人の生徒たちと一緒に話し合って、正しい答えに修正していく」**ようなイメージです。

これにより、見習い（LMM）は**「あ、これはリンゴじゃなくて、桃だった！」**と自分で気づき、プロ（CLIP）よりも正確で、自然な答えを出せるようになりました。

🌟 まとめ：何がすごいのか？

LMM（見習い）は、実は分類が得意だった！
単に画像を見せるだけじゃダメで、**「例題（コンテキスト）」**を上手に使うことが鍵でした。
CIRCLE（自己修正）が魔法の杖！
正解のラベルがなくても、**「AI 同士で話し合って、答えを磨き上げる」**だけで、非常に高い精度が出せます。
これからの未来：
これまで「画像分類には CLIP（プロ）を使おう」と思われていましたが、これからは**「LMM（見習い）に、上手な『例題の出し方』と『自己修正』をさせれば、何でもこなせる万能選手になれる」**ことが証明されました。

一言で言うと：
**「AI に『正解』を教えるんじゃなくて、『例題』を見せながら『一緒に考えさせる』だけで、AI は驚くほど賢く、正確になるんだよ！」**という発見です。

Each language version is independently generated for its own context, not a direct translation.

論文概要

本論文は、画像分類タスクにおいて、従来の対照的ビジョン・ランゲージモデル（CLIP などの VLM）と、生成型の大規模マルチモーダルモデル（LMM）の性能を比較し、特に**インコンテキスト学習（ICL: In-Context Learning）の活用が LMM の性能を劇的に向上させることを示しています。さらに、教師なしのオープンワールド分類において、文脈を自己改善する新しい手法「CIRCLE」**を提案し、VLM を凌駕する性能を達成しました。

1. 背景と問題設定

現状の課題: 画像分類タスクでは、ゼロショット性能に優れた対照的 VLM（例：CLIP）が一般的に優れていると考えられています。一方、生成型の LMM は複雑な推論タスクには強いものの、分類タスクでは VLM より劣るとする先行研究が多く存在します。
問い: LMM は本当に分類タスクが苦手なのか、それとも適切な条件付け（Conditioning）がなされていないだけなのか？
仮説: LMM は「インコンテキスト学習（ICL）」の能力を持っており、少量の例（コンテキスト）を与えることで、対照的 VLM に匹敵、あるいは凌駕する性能を発揮できるのではないか。また、オープンワールド（事前定義されたクラスがない）設定では、LMM の生成能力がより有効であるはずだが、ノイズのある文脈に弱いという課題がある。

2. 提案手法と methodology

A. クローズドワールド分類（事前定義されたクラスがある場合）

比較対象:
- VLM: Tip-Adapter（キャッシュベースの Few-shot 学習）を基準として使用。
- LMM: Vanilla ICL（ラベル付き例をコンテキストウィンドウに直接入力する標準的な手法）。
実験: 10 のデータセット（Caltech101, Flowers102, Stanford Cars など）で、4-shot, 8-shot, 16-shot の条件下で評価。
知見:
- ゼロショットでは VLM が優位だが、コンテキストサイズが増えるにつれて LMM の性能は急上昇する。
- 特に 16-shot 程度では、高性能な LMM（Qwen2-VL など）は最強の VLM（CLIP ViT-L/14）と同等以上の精度を達成。
- LMM は VLM に比べて、コンテキスト追加による相対的な性能向上率（サンプル効率）が非常に高い（VLM が +25% 程度なのに対し、LMM は +50% 以上）。

B. オープンワールド分類（事前定義されたクラスがない場合）

課題: クラスラベルが存在しないため、コンテキスト例に正解ラベルがない。単純な擬似ラベリング（Pseudo-labeling）を行うと、誤ったラベルが文脈に蓄積し、モデルの性能が低下する（ノイズ増幅）。
提案手法：CIRCLE (CIRCLE Iteratively Refines Contextual Learning Examples)
- 目的: 教師なしの画像のみをコンテキストとして利用し、そのラベルを文脈自体を用いて反復的に改善する。
- アルゴリズム:
  1. 初期擬似ラベリング: 未ラベルのコンテキスト画像群に対し、LMM に個別にラベルを生成させる。
  2. 再帰的改善（Leave-one-out）: 各画像 $x_i$ に対して、他の $m-1$ 個の画像とその（更新された）ラベルをコンテキストとして与え、 $x_i$ のラベルを再推定する。
  3. 反復: このプロセスを数回繰り返すことで、コンテキスト内のサンプル間の依存関係を考慮し、一貫性のある粒度（Granularity）のラベルセットを構築する。
- 特徴: 追加の学習や人間のアノテーションを一切必要としない（Training-free）。

3. 主要な貢献

LMM の分類能力の再評価: インコンテキスト学習を活用することで、LMM が対照的 VLM に匹敵し、場合によっては凌駕することを初めて体系的に証明した。
CIRCLE の提案: オープンワールド分類において、教師なしのコンテキスト例からラベルを反復的に洗練させる新しい手法を提案。これにより、単純な擬似ラベリングや VLM ベースの手法を大幅に上回る性能を達成。
汎用分類器としての LMM の可能性: LMM が、特定のタスクに特化したモデルや VLM に代わる、柔軟で強力な「汎用分類器」として機能しうることを示唆。

4. 実験結果

クローズドワールド:
- 16-shot 条件下で、Qwen2-VL-7B は CLIP ViT-L/14 と同等の精度を達成。
- Phi-3.5-Vision はゼロショットから +29.2% の精度向上を記録。
オープンワールド:
- 指標: Llama Inclusion (LI: 正解ラベルが出力に含まれるか), Semantic Similarity (SS), Concept Similarity (bCS, mCS) を使用。
- 結果:
  - 単純な擬似ラベリング（Pseudo ICL）は、ゼロショットベースラインよりも性能を低下させるケースが多かった（文脈ノイズの影響）。
  - CIRCLE は、すべてのモデル（Qwen, LLaVA, Phi シリーズ）とすべてのデータセットカテゴリ（プロトタイプ、微細分類など）で、VLM ベースライン（CaSED など）および他の ICL 手法を凌駕。
  - 例：Qwen2.5-VL において、Prototypical データセットの LI スコアが 82.9（ゼロショット）から 94.9（CIRCLE）へ向上。
- ストリーミング設定: テストデータの流れに対して動的にコンテキストを更新する設定でも、CIRCLE はロバスト性を示し、Pseudo-labeling よりも一貫して高い性能を維持。

5. 意義と結論

LMM のポテンシャル: 従来の「VLM は分類に、LMM は生成に」という二分法を覆し、適切なコンテキスト管理（ICL）を行えば、LMM が分類タスクにおいても最強の選択肢となり得ることを示しました。
文脈の重要性: 単に例を与えるだけでなく、その文脈をモデル自身で「自己改善（Refinement）」させることが、オープンワールドのような不確実性の高い環境で極めて重要であることを実証しました。
将来的展望: CIRCLE は学習不要で実装が容易であるため、リソース制約のある環境や、ラベル付けが困難なドメインでの実用化が期待されます。今後の課題として、曖昧なデータに対する改善の収束性や、ストリーミング処理時の計算コストの最適化が挙げられています。

この研究は、マルチモーダルモデルの分類能力を最大化するための新しいパラダイム（生成モデル＋反復的インコンテキスト学習）を提示し、分野の方向性を大きく変える可能性を秘めています。

Large Multimodal Models as General In-Context Classifiers

🍳 結論：AI の「料理上手」は、実は「レシピ」次第だった！

🧩 1. 閉じた世界（決まったメニュー）の話

🌍 2. 開かれた世界（メニュー表なし）の話

🌟 まとめ：何がすごいのか？

論文概要

1. 背景と問題設定

2. 提案手法と methodology

A. クローズドワールド分類（事前定義されたクラスがある場合）

B. オープンワールド分類（事前定義されたクラスがない場合）

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation