TACIT Benchmark: A Programmatic Visual Reasoning Benchmark for Generative and Discriminative Models

既存の視覚推論ベンチマークの課題を克服するため、6 つの推論領域にわたる 10 種類のタスクから構成され、生成タスクと構造的な誤答を含む選択タスクの両方を通じて厳密な検証を可能にする「TACIT Benchmark」を提案し、そのデータセットと評価基盤を公開した。

Daniel Nobrega Medeiros

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

TACIT ベンチマーク:AI の「視覚的な思考力」を測る新しいテスト

この論文は、AI(人工知能)が「言葉」を使わずに、純粋に「目」で見て論理的に考えることができるかどうかを、より正確に測るための新しいテスト「TACIT ベンチマーク」を紹介しています。

これまでの AI のテストは、問題文に「この迷路を解いて」といった言葉が含まれていたり、正解を人間が「なんとなく」判断したりしていました。しかし、TACIT は**「言葉なし」で、「正解か不正解かは機械が厳密に判定する」という、まるで「AI の視覚的な IQ テスト」**のような仕組みを作りました。

以下に、この仕組みをわかりやすく解説します。


1. なぜ新しいテストが必要なのか?(これまでの課題)

これまでの AI のテストには、2 つ大きな「抜け穴」がありました。

  • 言葉のせいで正解してしまう:
    AI が「迷路」という言葉を知っているから正解しただけで、本当に迷路の図を見て道筋を考えているのか、それとも言葉の知識で答えを当てているのか、区別ができませんでした。
    • 例え話: 数学のテストで、問題文の「足し算」という言葉を見て答えを言っているだけで、実際に計算していないのと同じです。
  • 主観的な採点:
    正解かどうかを人間や別の AI が「たぶんこれかな?」と判断していました。これでは、同じ答えでも採点者が違えば結果が変わってしまいます。

2. TACIT ベンチマークの 3 つのすごい特徴

TACIT は、この問題を 3 つのアイデアで解決しました。

① 「言葉なし」のテスト(言語最小化)

テストの問題文には、一切の文章がありません。すべて**「図」「記号」**で指示されています。

  • 例え話: 外国語が全くわからない人でも、図を見れば解けるパズルです。AI が「言葉の知識」に頼らず、本当に「図を見て考える力」があるか試します。

② 「二つの道」で測る(デュアルトラック評価)

同じ問題に対して、AI に 2 つの異なる方法で答えさせます。

  1. 生成トラック(描く力): 答えの画像を AI 自身に描かせます
  2. 選択トラック(選ぶ力): 5 つの選択肢(正解 1 つ+間違い 4 つ)から正しいものを選ばせます
  • 例え話:
    • 描く力: 自分で料理を作れるか?
    • 選ぶ力: 5 皿の料理から「美味しいもの」を指差せるか?
    • もし「選ぶ力」は高いのに「描く力」が低いなら、その AI は「答えを覚えているだけ」で、「自分で考えられない」可能性があります。この差を測ることで、AI の思考の深さを診断できます。

③ 機械による「厳密な採点」(決定論的検証)

答えが合っているかどうかは、人間がチェックしません。コンピューターが**「ルールに厳密に合っているか」**をプログラムでチェックします。

  • 例え話: 迷路のテストなら、「スタートからゴールまで、壁をぶち抜かずに一直線につながっているか」を、ピクセル単位で計算して「OK」か「NG」かを即座に判断します。主観はゼロです。

3. テストの内容(6 つの分野、10 種類の課題)

このテストには、6 つの異なる「思考の分野」から 10 種類の課題が含まれています。

  1. 迷路(空間認識): 複数の階層がつながった迷路を、スタートからゴールまでたどる。
  2. パターン(抽象思考): 図形の並びの法則を見つけ、欠けた部分を埋める(ラベンズ・マトリックス)。
  3. シミュレーション(因果関係): 細胞自動機(ゲーム・オブ・ライフのようなもの)のルールを見て、次の状態を予測する、または逆からルールを推測する。
  4. 論理パズル(制約充足): 色や記号の配置ルールに従って、論理パズルを解く。
  5. グラフ理論(ネットワーク): 点と線のつながりを色分けしたり、同じ構造かどうかを判断したりする。
  6. トポロジー(結び目): 複雑な結び目の図を見て、それが「ほどける輪(単純な円)」なのか、それとも「複雑な結び目」なのかを判断する。
  7. 幾何学投影(3 次元思考): 3 次元の立体を 2 次元の影(シルエット)に変換したり、その逆を行ったりする。

4. 不正解の選択肢(ダミー)の工夫

選択トラックでは、正解の他に 4 つの「ダミー(不正解)」を用意します。ここがすごいのは、**「たった 1 つのルール違反」**で不正解にしている点です。

  • 例え話: 迷路の正解は「壁を越えない」ことですが、ダミーは「壁を 1 箇所だけ越えている」だけ。
  • これにより、AI が「なんとなく雰囲気」で答えを選ばず、**「細部まで正確にルールを理解しているか」**を試すことができます。

5. まとめ:これがなぜ重要なのか?

TACIT ベンチマークは、AI が**「言葉の知識」ではなく「視覚的な論理力」**を持っているかを、公平で再現性のある方法で測るための「ものさし」です。

  • 研究者にとって: AI のどこが弱いか(描けないのか、選ぶだけなのか)を詳しく分析できます。
  • 社会にとって: 将来的に、AI が自動で設計図を描いたり、複雑な科学データを視覚的に理解したりする際、本当に信頼できるかどうかを判断する基準になります。

このテストはすべてオープンソース(誰でも使える状態)で公開されており、世界中の研究者が AI の「視覚的な知性」を競い合い、進化させるための新しい土台となっています。