Would you still call this Dax? Novel Visual References in VLMs and Humans

原著者： Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

公開日 2026-06-05✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

想像してみてください。あなたはロボットに、全く新しい物体に対して新しい言葉を教えています。あなたは奇妙で光り輝く生き物の写真を見せながら、「これは**ダックス（Dax）**です」と言いました。すると、あなたはロボットに対して、少しずつ見た目が変わっていくダックスの写真を次々と見せていきます。あるものはぼやけており、あるものは逆さま、あるものは色が異なり、またあるものは腕が一本増えています。

この論文が問いかけているのは、**「ロボットは、どの時点で『これはもうダックスではない』と言うのか？」ということです。そしてより重要なのは、「ロボットは人間と同じ判断を下すのか？」**という点です。

研究結果の簡単な内訳は以下の通りです。

1. 「ダックス」テスト（セットアップ）

研究者たちは、NVRD（新規視覚リファレンス・データセット）と呼ばれる膨大なデータセットを作成しました。これは、90種類のユニークな架空の物体を集めた巨大なアートギャラリーのようなものです。

いくつかの物体は実在するもの（椅子）に似ていますが、架空の名前（「ブロムウィッチ」など）が与えられています。
いくつかはハイブリッドです（トースターにイノシシの頭がついたものなど）。
いくつかは完全に異質な、現実世界には存在しないものです。

それぞれの物体に対して、徐々に「悪化」したり歪んだりしていく20個のバージョンを作成しました。彼らは5つの異なるAIモデル（「ロボット」）と2,400人の人間を対象に、物体が変化したときに彼らがどのように反応するかをテストしました。

2. 「既知の知識」の問題

最初の大きな発見は、AIはすでに何かを知っている場合、苦戦するということです。

人間の比喩： もしあなたが人間に本物の犬の写真を見せて、それを「ダックス」と呼んだら、その人はおそらく「いいえ、それは犬です」と言うでしょう。彼らは、犬には特定の名前があるという強い記憶を持っています。
AIの結果： AIモデルも同様の挙動を示しました。物体が馴染みのあるもの（椅子など）であった場合、AIは新しい名前である「ダックス」を学習することを拒み、それを「椅子」と呼び続けました。しかし、物体が全く新しく奇妙なものであった場合、AIは喜んでその新しい名前を受け入れました。

3. 「形状 vs テクスチャ」のバイアス

次に、研究者たちは物体をねじ曲げ始めました。色を変えたり、ノイズを加えたり、物体の形状を完全に変えたりしました。

人間の比喩： 人間は彫刻家のようなものです。もしあなたがダックスの粘土像の顔を潰したり、腕を折ったりしたら、私たちは「これはもう同じダックスではない！」と言います。私たちは形状を深く重視します。もし単に青く塗ったり、絵画のように見せたりしただけであれば、私たちは「よし、これはまだダックスだ」と言います。
AIの結果： AIモデルはこれについて人間と一致しました！彼らもまた、形状を最も重視しました。形状が変われば、AIはそれをダックスと呼ぶのをやめました。色やテクスチャが変わっただけであれば、AIは問題ありませんでした。

4. 「寛容すぎる」ロボット

これが最も重要な発見です。AIと人間は「何が重要か（形状）」については一致していましたが、「どの程度の変化が許容できないレベルか」については意見が分かれました。

人間の比喩： 人間は厳しいです。もしあなたがダックスの首を伸ばしてキリンのように見せたら、私たちは「いや、それはもうダックスではない」と言います。
AIの結果： AIモデルは寛容すぎました。物体が引き伸ばされたり、変形したり、パーツが増えたりしても、AIはそれを「ダックス」と呼び続けました。AIは、人間よりもはるかに広い範囲の「奇妙さ」を受け入れる用意がありました。

比喩： 人間とロボットが、2枚の写真を見て同じ動物かどうかを当てるゲームをしていると想像してください。

人間： 「あれは猫だ。そして、あれは……長い尻尾を持った猫だ。まだ猫だ。でも、あれは？あれは犬の頭を持った猫だ。いや、あれはもう猫ではない。」
ロボット： 「あれは猫だ。あれは長い尻尾を持った猫だ。あれは犬の頭を持った猫だ。あれは木が生えている猫だ。はい、これはまだ猫です。」

5. なぜこれが重要なのか（論文による結論）

論文は、AIは新しいことを即座に学習する能力は向上しているものの、人間が持つような「常識的な境界線」は持っていないと結論付けています。

もし人間とAIが、現実世界で新しい物体についてコミュニケーションを取ろうとした場合、人間は「これは壊れすぎていて、もはや同じものとは言えない」と考える一方で、AIは「いいえ、これはまだ同じものです」と言い張るかもしれません。このミスマッチは、将来的に両者が効果的に協力することを困難にする可能性があります。

要約すると： AIは新しい言葉を学ぶことができますが、その言葉の定義を広げすぎる傾向があります。特に、物体が元の姿から大きく変わってしまった場合に、その傾向が顕著になります。

1. 「ダックス」テスト（セットアップ）

2. 「既知の知識」の問題

3. 「形状 vs テクスチャ」のバイアス

4. 「寛容すぎる」ロボット

5. なぜこれが重要なのか（論文による結論）

問題提起

手法

主な結果

貢献と意義

Would you still call this Dax? Novel Visual References in VLMs and Humans

1. 「ダックス」テスト（セットアップ）

2. 「既知の知識」の問題

3. 「形状 vs テクスチャ」のバイアス

4. 「寛容すぎる」ロボット

5. なぜこれが重要なのか（論文による結論）

問題提起

手法

主な結果

貢献と意義

関連論文