Would you still call this Dax? Novel Visual References in VLMs and Humans

Autori originali: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

Pubblicato 2026-06-05✓ Author reviewed
📖 4 min di lettura☕ Lettura da pausa caffè

Autori originali: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immagina di insegnare a un robot una parola del tutto nuova per un oggetto del tutto nuovo. Gli mostri l'immagine di una strana creatura luminosa e dici: "Questo è un Dax". Poi, inizi a mostrare al robot immagini di quel Dax che appaiono leggermente diverse: uno è sfocato, uno è sottosopra, uno ha un colore diverso e uno ha un braccio in più.

La domanda che questo articolo pone è: a che punto il robot dice: "Quello non è più un Dax"? E, cosa più importante, il robot esprime lo stesso giudizio di un essere umano?

Ecco una semplice suddivisione di ciò che i ricercatori hanno scoperto:

1. Il test del "Dax" (L'impostazione)

I ricercatori hanno creato un enorme dataset chiamato NVRD (Novel Visual References Dataset). Immaginalo come una gigantesca galleria d'arte con 90 oggetti unici e inventati.

  • Alcuni oggetti somigliano a cose reali (una sedia), ma ricevono nomi falsi (come "blomwich").
  • Altri sono ibridi (un tostapane con la testa di un cinghiale).
  • Altri sono totalmente alieni e non esistono nel mondo reale.

Per ogni oggetto, hanno creato 20 versioni che diventavano progressivamente "peggiori" o più distorte. Hanno testato cinque diversi modelli di IA (i "robot") e 2.400 esseri umani per vedere come reagivano quando l'oggetto cambiava.

2. Il problema della "Conoscenza Pregressa"

La prima grande scoperta è che l'IA fatica quando sa già cos'è qualcosa.

  • L'analogia umana: Se mostri a un essere umano l'immagine di un cane vero e lo chiami "Dax", probabilmente dirà: "No, quello è un cane". Ha una memoria forte del fatto che i cani abbiano un nome specifico.
  • Il risultato dell'IA: I modelli di IA si sono comportati in modo simile. Quando l'oggetto era qualcosa di familiare (come una sedia), l'IA si rifiutava di imparare il nuovo nome "Dax" e continuava a chiamarlo "sedia". Tuttavia, quando l'oggetto era totalmente nuovo e strano, l'IA accettava felicemente il nuovo nome.

3. Il pregiudizio "Forma vs Tessitura"

I ricercatori hanno poi iniziato a deformare gli oggetti. Hanno cambiato il colore, aggiunto rumore o completamente rimodellato l'oggetto.

  • L'analogia umana: Gli esseri umani sono come scultori. Se prendi una statua di argilla di un Dax e le schiacci il volto o le rompi un braccio, diciamo: "Questo non è più lo stesso Dax!". Ci interessa profondamente la forma. Se lo dipingi solo di blu o lo fai sembrare un dipinto, diciamo ancora: "Sì, è ancora un Dax".
  • Il risultato dell'IA: I modelli di IA erano d'accordo con gli umani su questo! Anche loro davano molta importanza alla forma. Se la forma cambiava, l'IA smetteva di chiamarlo Dax. Se cambiava solo il colore o la tessitura, l'IA non aveva problemi.

4. Il robot "Troppo Generoso"

Questa è la scoperta più critica. Sebbene l'IA e gli umani concordassero su cosa fosse importante (la forma), discordevano su quanto cambiamento fosse eccessivo.

  • L'analogia umana: Gli esseri umani sono severi. Se allunghi il collo di un Dax finché non sembra una giraffa, diciamo: "No, questo non è un Dax".
  • Il risultato dell'IA: I modelli di IA erano troppo generosi. Continuavano a chiamare l'oggetto "Dax" anche quando veniva allungato, deformato o gli venivano aggiunte parti extra. Erano disposti ad accettare una gamma di stranezze molto più ampia rispetto agli esseri umani.

L'analogia: Immagina che un essere umano e un robot stiano giocando a un gioco in cui bisogna indovinare se due immagini rappresentano lo stesso animale.

  • Umano: "Quello è un gatto. E quello... è un gatto con una coda molto lunga. Ancora un gatto. Ma quello? Quello è un gatto con la testa di un cane. No, quello non è un gatto."
  • Robot: "Quello è un gatto. Quello è un gatto con una coda lunga. Quello è un gatto con la testa di un cane. Quello è un gatto con un albero che cresce da esso. Sì, è ancora un gatto."

5. Perché questo è importante (secondo l'articolo)

L'articolo conclude che, sebbene l'IA stia migliorando nel imparare nuove cose al volo, non possiede gli stessi confini di "buon senso" che hanno gli esseri umani.

Se un essere umano e un'IA stanno cercando di comunicare riguardo a un nuovo oggetto nel mondo reale, l'umano potrebbe pensare: "È troppo danneggiato per essere la stessa cosa", mentre l'IA insiste: "No, è ancora la stessa cosa". Questa discrepanza potrebbe rendere difficile la collaborazione efficace tra loro in futuro.

In breve: L'IA può imparare nuove parole, ma è troppo disposta a dilatare la definizione di quelle parole, specialmente quando l'oggetto appare molto diverso dall'originale.

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →