Would you still call this Dax? Novel Visual References in VLMs and Humans

Autores originales: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

Publicado 2026-06-05✓ Author reviewed
📖 5 min de lectura🧠 Análisis profundo

Autores originales: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que le estás enseñando a un robot una palabra nueva para un objeto totalmente nuevo. Le muestras la imagen de una criatura extraña y brillante y le dices: "Esto es un Dax". Luego, empiezas a mostrarle al robot imágenes del Dax que se ven ligeramente diferentes: uno está borroso, otro está boca abajo, otro tiene un color diferente y otro tiene un brazo extra.

La pregunta que este artículo plantea es: ¿En qué punto dice el robot: "Eso ya no es un Dax"? Y lo más importante, ¿emite el robot el mismo juicio que lo haría un humano?

Aquí tienes un desglose sencillo de lo que descubrieron los investigadores:

1. La prueba del "Dax" (La configuración)

Los investigadores crearon un conjunto de datos masivo llamado NVRD (Dataset de Referencias Visuales Novedosas). Piensa en esto como una galería de arte gigante con 90 objetos únicos y creados artificialmente.

  • Algunos objetos se parecen a cosas reales (una silla), pero se les ha dado un nombre falso (como "blomwich").
  • Algunos son híbridos (un tostador con cabeza de jabalí).
  • Otros son totalmente alienígenas y no existen en el mundo real.

Para cada objeto, crearon 20 versiones que se volvían progresivamente "peores" o más distorsionadas. Probaron cinco modelos diferentes de IA (los "robots") y 2.400 humanos para ver cómo reaccionaban cuando el objeto cambiaba.

2. El problema del "Conocimiento Previo"

El primer gran hallazgo es que la IA tiene dificultades cuando ya sabe qué es algo.

  • La analogía humana: Si le muestras a un humano la foto de un perro real y lo llamas "Dax", es probable que diga: "No, eso es un perro". Tienen un recuerdo muy fuerte de que los perros tienen un nombre específico.
  • El resultado de la IA: Los modelos de IA actuaron de forma similar. Cuando el objeto era algo familiar (como una silla), la IA se negaba a aprender el nuevo nombre "Dax" y seguía llamándolo "silla". Sin embargo, cuando el objeto era totalmente nuevo y extraño, la IA aceptaba felizmente el nuevo nombre.

3. El sesgo de "Forma vs. Textura"

Luego, los investigadores empezaron a retorcer los objetos. Cambiaron el color, añadieron ruido o remodelaron completamente el objeto.

  • La analogía humana: Los humanos somos como escultores. Si tomas una estatua de arcilla de un Dax y le aplastas la cara o le rompes un brazo, decimos: "¡Ese ya no es el mismo Dax!". Nos importa profundamente la forma. Si solo lo pintas de azul o haces que parezca una pintura, seguimos diciendo: "Sí, ese sigue siendo un Dax".
  • El resultado de la IA: ¡Los modelos de IA coincidieron con los humanos en esto! Ellos también se centraron principalmente en la forma. Si la forma cambiaba, la IA dejaba de llamarlo Dax. Si solo cambiaba el color o la textura, la IA no tenía problema.

4. El robot "Demasiado Generoso"

Este es el hallazgo más crítico. Aunque la IA y los humanos coincidieron en qué era lo importante (la forma), no estuvieron de acuerdo en cuánto cambio era demasiado.

  • La analogía humana: Los humanos somos estrictos. Si estiras el cuello de un Dax hasta que parece una jirafa, decimos: "No, eso no es un Dax".
  • El resultado de la IA: Los modelos de IA fueron demasiado generosos. Seguían llamando al objeto "Dax" incluso cuando estaba estirado, deformado o se le habían añadido partes extra. Estaban dispuestos a aceptar un rango de extrañeza mucho más amplio de lo que los humanos aceptarían.

La analogía: Imagina que un humano y un robot están jugando a un juego en el que tienes que adivinar si dos fotos son el mismo animal.

  • Humano: "Ese es un gato. Y ese... es un gato con la cola muy larga. Sigue siendo un gato. Pero ¿eso? Eso es un gato con cabeza de perro. No, eso no es un gato".
  • Robot: "Ese es un gato. Ese es un gato con la cola larga. Ese es un gato con cabeza de perro. Ese es un gato con un árbol creciendo de él. Sí, sigue siendo un gato".

5. Por qué esto es importante (Según el artículo)

El artículo concluye que, aunque la IA está mejorando en su capacidad para aprender cosas nuevas sobre la marcha, no posee los mismos límites de "sentido común" que los humanos.

Si un humano y una IA intentan comunicarse sobre un objeto nuevo en el mundo real, el humano podría pensar: "Eso está demasiado roto para ser lo mismo", mientras que la IA insiste: "No, sigue siendo lo mismo". Este desajuste podría dificultar que trabajen juntos de manera efectiva en el futuro.

En resumen: La IA puede aprender palabras nuevas, pero está demasiado dispuesta a estirar la definición de esas palabras, especialmente cuando el objeto se ve muy diferente al original.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →