Each language version is independently generated for its own context, not a direct translation.

この論文「CountEx」は、**「数え間違いをなくすための、新しい『数え方』と『データセット』」**を紹介するものです。

コンピュータに「画像の中のものを数えて」と頼むとき、私たちはいつも「何」を数えるかだけを伝えます。でも、現実の世界はもっと複雑です。「スパゲッティを数えて」と言っても、同じ皿に「ペンネ（太い麺）」と「スパゲッティ（細い麺）」が混ざっていたら、コンピュータは両方数えてしまったり、間違った方ばかり数えたりすることがあります。

この論文は、「数えてほしいもの」と「数えたくない（似ているけど違う）もの」の両方を指定して、正確に数える方法を提案しています。

以下に、日常の言葉と面白い例えを使って解説します。

1. 従来の問題：「似ているもの」に騙されるコンピュータ

例え話：お菓子の箱
Imagine（想像してみてください）スーパーで「赤いキャンディを数えて」と店員さんに頼んだとします。
でも、箱の中には「赤いキャンディ」と「オレンジ色のキャンディ」が混ざっています。
従来のコンピュータは、「赤い」という言葉に反応して、オレンジ色のキャンディも「赤っぽいから」と勘違いして数えてしまったり、逆に「赤い」だけを探そうとして、オレンジ色のキャンディを「赤い」と誤認して数えたりします。

これが、**「視覚的に似たような邪魔なもの（ディストラクター）」**に悩まされる状態です。

2. CountEx の解決策：「除外（Exclusion）」という魔法の言葉

CountEx は、ユーザーに**「数えてほしいもの（ポジティブ）」だけでなく、「数えたくないもの（ネガティブ）」**も教えてくれるようにしました。

従来の方法： 「赤いキャンディを数えて」
CountEx の方法： 「赤いキャンディを数えて、オレンジ色ののは数えないで」

これにより、コンピュータは「似ているけど違うもの」を明確に区別できるようになります。

具体的な仕組み：「探偵とフィルター」

このシステムの中核にあるのは**「DQR（差別化クエリ洗練）」という仕組みです。これを「優秀な探偵とフィルター」**に例えてみましょう。

探偵の派遣（クエリの生成）：
まず、探偵（AI）を2人派遣します。
- 探偵A：「赤いキャンディを探せ！」（数えたいもの）
- 探偵B：「オレンジ色のキャンディを探せ！」（数えたくないもの）
共通点の発見（共有特徴の特定）：
2人の探偵が報告します。「どちらも『キャンディ』という形や質感を持っているね」と。これは**「共通の土台」**です。
違いの抽出（排他的特徴の抽出）：
次に、「オレンジ色」という**「赤いキャンディにはない、オレンジ色探偵だけが持つ特徴」**を切り取ります。
フィルターを通す（選択的抑制）：
最終的に、探偵A（赤いキャンディ）の報告書から、探偵Bが持っていた「オレンジ色」という特徴だけを**「フィルター（ノイズ除去）」**で消し去ります。
- 結果：「赤いキャンディ」は残りますが、「オレンジ色のキャンディ」は消去されます。

これにより、混ざり合ったお菓子の箱の中から、本当に「赤いキャンディ」だけを正確に数え上げることができます。

3. 新しいデータセット「CoCount」：練習用の「似顔絵帳」

新しい方法を実験するには、練習用のデータが必要です。既存のデータセットは「1つの種類だけ」や「数が少なすぎる」ことが多く、この「似ているものを区別する」練習には不向きでした。

そこで、著者たちは**「CoCount」**という新しいデータセットを作りました。

内容： 1,000 本以上の動画と 1 万枚以上の写真。
特徴： 「ペンネとスパゲッティ」「黒い豆と白い豆」「大きなボタンと小さなボタン」など、**97 組の「双子のようなペア」**が含まれています。
役割： これを使って、AI に「似ているけど違うものを区別する」ことを徹底的に訓練させました。まるで、双子の顔を見分けるためのトレーニング教材のようなものです。

4. 結果：どれくらい上手くなった？

実験の結果、CountEx は他の最新の AI よりもはるかに正確に数えることができました。

新しいものへの対応： 一度も見たことのないお菓子の種類でも、「赤いのは数えて、青いのは数えないで」と言えば、上手に数えられました。
他のデータセットでも： 既存の有名なテスト（LOOKALIKES など）でも、トップクラスの成績を収めました。

5. まとめ：なぜこれが重要なのか？

この技術は、単に「数を数える」だけでなく、**「人間の意図を深く理解する」**一歩です。

医療： 「腫瘍（がんの塊）を数えて、正常な細胞は数えないで」といった精密な診断。
交通： 「歩行者を数えて、看板や木は数えないで」といった安全確認。
日常： 「冷蔵庫の中の卵を数えて、卵パックの箱は数えないで」といった家事支援。

CountExは、AI に「何をしてほしいか」だけでなく、「何をしてほしくないか」も教えることで、複雑でごちゃごちゃした現実の世界でも、人間のように賢く、正確に「数える」ことができるようにした画期的な研究なのです。

一言で言うと：
「似ているものを混ぜて数えるのが苦手だった AI に、『あれは数えないで！』と教えることで、完璧な数え方をマスターさせた！」というお話です。

Each language version is independently generated for its own context, not a direct translation.

CountEx: 例示と除外による微細なカウント技術の概要

本論文は、既存の視覚的カウント手法が抱える「視覚的に類似したノイズ（ダストラクター）を明示的に除外できない」という課題を解決するため、CountEx（Counting via Exemplars and Exclusion）という新しいフレームワークを提案しています。また、このタスクを評価するための大規模ベンチマークCoCountも紹介しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。

1. 問題定義 (Problem)

従来の視覚的カウント（Visual Counting）や視覚言語モデル（VLM）を用いたカウント手法は、ユーザーが「何を数えるか」を指定する含意（Inclusion）プロンプト（テキストや例示画像）には対応していますが、「何を数えないか」を明示的に除外（Exclusion）する指示には対応できていません。

課題: 複雑なシーンや視覚的に類似した物体が混在する環境（例：スパゲッティとペンネ、黒いコーヒーキャンディと茶色いコーヒーキャンディ）において、既存手法はユーザーの意図を誤解し、除外すべき物体まで含めて過剰にカウント（Over-counting）してしまう傾向があります。
既存手法の限界: 除外指示を扱うための単純なアプローチ（正の例と負の例を別々にカウントして引き算する）は、両者の関係性を無視しており、精度が低下します。

2. 手法 (Methodology)

CountEx は、マルチモーダルプロンプト（自然言語と任意の視覚例）を用いて、含意と除外の両方の意図を同時に推論する**識別的クエリ洗練（Discriminative Query Refinement）**アーキテクチャを提案しています。

2.1. 基本的な構成

入力: 画像 $I$ 、対象を指定する正のプロンプト（テキスト $T_{pos}$ および例示 $E_{pos}$ ）、除外対象を指定する負のプロンプト（テキスト $T_{neg}$ および例示 $E_{neg}$ ）。
ベースモデル: Open-vocabulary 検出器（LLMDet など）を基盤とし、画像とプロンプトに基づいて物体候補のクエリセットを生成します。

2.2. 核心技術：識別的クエリ洗練 (Discriminative Query Refinement, DQR)

DQR モジュールは、負のプロンプトを単純に減算するのではなく、以下の 3 段階のプロセスで正のクエリを洗練させます。

共有特徴の同定 (Shared Feature Identification):
- 正のクエリセット ( $Q_{pos}$ ) と負のクエリセット ( $Q_{neg}$ ) の両方から共通する視覚特徴（形状、テクスチャ、カテゴリレベルの属性など）を捉えるための学習可能なプロトタイプ $C$ を学習します。
- これにより、両カテゴリに共通する「物体としての本質的な特徴」を分離します。
排他的特徴の抽出 (Exclusive Feature Extraction):
- 負のクエリから、共有特徴空間（プロトタイプ $C$ ）と距離のある、負に特有の成分のみを抽出します。
- プロジェクトと残差（Residual）の計算を行い、共通部分を除去した「負の排他的参照セット ( $R_{neg}$ )」を構築します。
選択的クエリ洗練 (Selective Query Refinement):
- 正のクエリ ( $Q_{pos}$ ) に対して、負の排他的特徴 ( $R_{neg}$ ) をキーとバリューとしてクロスアテンションを適用します。
- 負のクエリと強く一致する特徴（ダストラクター）をゲート機構を介して選択的に抑制し、正の物体の特徴は保持します。
- これにより、視覚的に類似するが除外すべき物体をフィルタリングした上で、正確なカウントを行います。

3. 主要な貢献 (Key Contributions)

除外指示を伴うカウントタスクの定式化: ユーザーが「何を数え、何を無視するか」を明示的に指定できる新しいインタフェースを提案しました。
CountEx アーキテクチャの提案: 含意と除外の信号を統合的に推論する DQR モジュールを開発し、複数のベンチマークで SOTA（State-of-the-Art）性能を達成しました。
CoCount データセットの公開:
- 97 のカテゴリペア（1,780 動画、10,086 アノテーション付きフレーム）から構成される大規模ベンチマーク。
- 「カテゴリ間（例：コインとクリップ）」と「カテゴリ内（例：黒いペッパーと白いペッパー）」の両方の微細な区別をテスト可能。
- 既存のデータセットでは見られなかった、除外指示を必要とする複雑な多物体シーンの評価を可能にしました。

4. 実験結果 (Results)

CoCount および他の既存ベンチマーク（LOOKALIKES, PairTally, FSC-147）での評価結果は以下の通りです。

CoCount における性能:
- Novel-Category Setting (NC-setting): 訓練データに含まれないカテゴリでの評価。CountEx は MAE 26.61 を達成し、ベースライン（LLMDet: 33.22）より19.9% 誤差を削減しました。
- Known-Category Setting (KC-setting): 既知のカテゴリでの評価。MAE 12.72 を達成し、最良のベースライン（CountGD: 15.55）より18% 改善しました。
ゼロショット転送性能 (LOOKALIKES):
- 追加学習なしで LOOKALIKES ベンチマークを評価。MAE 18.53 を達成し、ゼロショット手法の中で SOTA となりました（CountGD より 17.1% 改善）。
- 既存の SOTA 手法（D'Alessandro et al.）は MAE 10.00 で優れていますが、これはカテゴリごとの合成データ生成とテスト時適応（1 カテゴリあたり 5-7 分）を必要としており、CountEx のリアルタイム性とユーザビリティとは対照的です。
アブレーション研究:
- 負のテキストプロンプトの追加は MAE を大幅に改善しました。
- 密度予測損失（ $L_{den}$ ）とプロトタイプ学習損失（ $L_{proto}$ ）の両方が精度向上に寄与していることが確認されました。

5. 意義と結論 (Significance)

実用性の向上: 混雑したシーンや視覚的に類似する物体が存在する環境（医療画像、監視カメラ、在庫管理など）において、ユーザーの意図をより正確に反映したカウントを可能にします。
インタラクティブな制御: 従来の「何を見るか」だけでなく「何を見ないか」を指定できることで、曖昧さを排除し、信頼性の高いカウントを実現します。
研究基盤の整備: CoCount データセットは、微細な区別を必要とするカウント手法の研究を促進し、今後の視覚言語モデルの推論能力評価の新たな基準となる可能性があります。

本論文は、視覚的カウントにおいて「除外（Exclusion）」という重要な要素を体系的に扱う最初の試みの一つであり、マルチモーダル推論の新たな方向性を示しています。

CountEx: Fine-Grained Counting via Exemplars and Exclusion