Would you still call this Dax? Novel Visual References in VLMs and Humans

Ursprüngliche Autoren: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

Veröffentlicht 2026-06-05✓ Author reviewed
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie bringen einem Roboter ein brandneues Wort für ein brandneues Objekt bei. Sie zeigen ihm das Bild eines seltsamen, leuchtenden Wesens und sagen: „Das ist ein Dax.“ Dann zeigen Sie dem Roboter Bilder von Daxes, die etwas anders aussehen: Einer ist verschwommen, einer steht auf dem Kopf, einer hat eine andere Farbe und einer hat einen zusätzlichen Arm.

Die Frage, die diese Arbeit stellt, la ist: Ab welchem Punkt sagt der Roboter: „Das ist kein Dax mehr“? Und noch wichtiger: Trifft der Roboter dieselbe Entscheidung wie ein Mensch?

Hier ist eine einfache Aufschlüsselung dessen, was die Forscher herausgefunden haben:

1. Der „Dax“-Test (Der Aufbau)

Die Forscher erstellten einen riesigen Datensatz namens NVRD (Novel Visual References Dataset). Stellen Sie sich dies als eine riesige Kunstgalerie mit 90 einzigartigen, erfundenen Objekten vor.

  • Einige Objekte sehen wie reale Dinge aus (ein Stuhl), haben aber einen falschen Namen erhalten (wie „Blomwich“).
  • Einige sind Hybride (ein Toaster mit einem Eberkopf).
  • Einige sind völlig fremdartig und existieren nicht in der realen Welt.

Für jedes Objekt erstellten sie 20 Versionen, die progressiv „schlechter“ oder stärker verzerrt wurden. Sie testeten fünf verschiedene KI-Modelle (die „Roboter“) und 2.400 Menschen, um zu sehen, wie diese reagierten, wenn sich das Objekt veränderte.

2. Das Problem des „alten Wissens“

Die erste große Erkenntnis ist, dass KI Schwierigkeiten hat, wenn sie bereits weiß, was etwas ist.

  • Die menschliche Analogie: Wenn man einem Menschen das Bild eines echten Hundes zeigt und ihn einen „Dax“ nennt, wird er wahrscheinlich sagen: „Nein, das ist ein Hund.“ Er hat eine starke Erinnerung daran, dass Hunde einen spezifischen Namen haben.
  • Das KI-Ergebnis: Die KI-Modelle verhielten sich ähnlich. Wenn das Objekt etwas Vertrautes war (wie ein Stuhl), weigerte sich die KI, den neuen Namen „Dax“ zu lernen, und nannte es weiterhin „Stuhl“. Wenn das Objekt jedoch etwas völlig Neues und Seltsames war, akzeptierte die KI den neuen Namen bereitwillig.

3. Der „Form vs. Textur“-Bias

Die Forscher begannen dann, die Objekte zu verändern. Sie änderten die Farbe, fügten Rauschen hinzu oder veränderten die Form des Objekts komplett.

  • Die menschliche Analogie: Menschen sind wie Bildhauer. Wenn man eine Tonstatue eines Dax nimmt und sein Gesicht zerquetscht oder einen Arm abricht, sagen wir: „Das ist nicht mehr derselbe Dax!“ Wir legen großen Wert auf die Form. Wenn man ihn nur blau anstreicht oder es so aussehen lässt, als wäre es ein Gemälde, sagen wir immer noch: „Ja, das ist immer noch ein Dax.“
  • Das KI-Ergebnis: Die KI-Modelle stimmten den Menschen in diesem Punkt zu! Auch sie legten den größten Wert auf die Form. Wenn sich die Form änderte, hörten sie auf, das Objekt einen „Dax“ zu nennen. Wenn sich nur die Farbe oder die Textur änderte, war die KI damit einverstanden.

4. Der „übermäßig großzügige“ Roboter

Dies ist die kritischste Erkenntnis. Während sich KI und Menschen darin einig waren, was wichtig ist (die Form), waren sie sich uneinig darüber, wie viel Veränderung zu viel ist.

  • Die menschliche Analogie: Menschen sind streng. Wenn man den Hals eines Dax so weit streckt, bis er wie eine Giraffe aussieht, sagen wir: „Nee, das ist kein Dax mehr.“
  • Das KI-Ergebnis: Die KI-Modelle waren zu großzügig. Sie nannten das Objekt weiterhin einen „Dax“, selbst wenn es gestreckt, deformiert oder mit zusätzlichen Teilen versehen war. Sie waren bereit, eine viel größere Bandbreite an Seltsamkeiten zu akzeptieren als Menschen.

Die Analogie: Stellen Sie sich vor, ein Mensch und ein Roboter spielen ein Spiel, bei dem man erraten muss, ob zwei Bilder dasselbe Tier darstellen.

  • Mensch: „Das ist eine Katze. Und das... ist eine Katze mit einem wirklich langen Schwanz. Immer noch eine Katze. Aber das? Das ist eine Katze mit einem Hundekopf. Nein, das ist keine Katze.“
  • Roboter: „Das ist eine Katze. Das ist eine Katze mit einem langen Schwanz. Das ist eine Katze mit einem Hundekopf. Das ist eine Katze, aus der ein Baum wächst. Ja, das ist immer noch eine Katze.“

5. Warum das wichtig ist (laut der Arbeit)

Die Arbeit kommt zu dem Schluss, dass KI zwar besser darin wird, neue Dinge im laufenden Betrieb zu lernen, aber nicht über denselben „gesunden Menschenverstand“ verfügt wie Menschen.

Wenn ein Mensch und eine KI versuchen, über ein neues Objekt in der realen Welt zu kommunizieren, denkt der Mensch vielleicht: „Das ist zu kaputt, um dasselbe Ding zu sein“, während die KI darauf beharrt: „Nein, es ist immer noch dasselbe Ding.“ Diese Diskrepanz könnte es schwierig machen, in Zukunft effektiv zusammenzuarbeiten.

Kurz gesagt: Die KI kann zwar neue Wörter lernen, aber sie ist zu bereit, die Definition dieser Wörter auszulegen, insbesondere wenn das Objekt sehr unterschiedlich zum Original aussieht.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →