Would you still call this Dax? Novel Visual References in VLMs and Humans

Autores originais: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

Publicado 2026-06-05✓ Author reviewed
📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você está ensinando a um robô uma palavra totalmente nova para um objeto totalmente novo. Você mostra a ele a imagem de uma criatura estranha e brilhante e diz: "Isto é um Dax". Então, você começa a mostrar ao robô imagens de diferentes Dax que parecem ligeiramente diferentes: um está borrado, um está de cabeça para baixo, um tem uma cor diferente e um tem um braço extra.

A pergunta que este artigo faz é: Em que ponto o robô diz: "Isso não é mais um Dax"? E, mais importante, o robô faz o mesmo julgamento que um humano faria?

Aqui está uma divisão simples do que os pesquisadores descobriram:

1. O Teste do "Dax" (A Configuração)

Os pesquisadores criaram um conjunto de dados massivo chamado NVRD (Novel Visual References Dataset). Pense nisso como uma galeria de arte gigante com 90 objetos únicos e inventados.

  • Alguns objetos parecem coisas reais (uma cadeira), mas recebem nomes falsos (como "blomwich").
  • Alguns são híbridos (uma torradeira com uma cabeça de javali).
  • Alguns são totalmente alienígenas e não existem no mundo real.

Para cada objeto, eles criaram 20 versões que ficavam progressivamente "piores" ou mais distorcidas. Eles testaram cinco modelos de IA diferentes (os "robôs") e 2.400 humanos para ver como eles reagiam quando o objeto mudava.

2. O Problema do "Conhecimento Antigo"

A primeira grande descoberta é que a IA tem dificuldade quando já sabe o que algo é.

  • A Analogia Humana: Se você mostrar a um humano a foto de um cachorro real e chamá-lo de "Dax", ele provavelmente dirá: "Não, isso é um cachorro". Eles têm uma memória forte de que cachorros têm um nome específico.
  • O Resultado da IA: Os modelos de IA agiram de forma semelhante. Quando o objeto era algo familiar (como uma cadeira), a IA se recusava a aprender o novo nome "Dax" e continuava chamando-o de "cadeira". No entanto, quando o objeto era totalmente novo e estranho, a IA aceitava alegremente o novo nome.

3. O Viés de "Forma vs. Textura"

Os pesquisadores então começaram a distorcer os objetos. Eles mudaram a cor, adicionaram ruído ou alteraram completamente a forma do objeto.

  • A Analogia Humana: Os humanos são como escultores. Se você pegar uma estátua de argila de um Dax e esmagar seu rosto ou quebrar um braço, nós dizemos: "Isso não é mais o mesmo Dax!" Nós nos importamos profundamente com a forma. Se você apenas pintá-lo de azul ou fazê-lo parecer uma pintura, ainda diremos: "Sim, ainda é um Dax".
  • O Resultado da IA: Os modelos de IA concordaram com os humanos quanto ao que era importante (a forma). Eles também se importavam mais com a forma. Se a forma mudasse, a IA parava de chamá-lo de Dax. Se apenas a cor ou a textura mudassem, a IA ficava tranquila com isso.

4. O Robô "Generoso Demais"

Esta é a descoberta mais crítica. Embora a IA e os humanos concordem sobre o que importa (a forma), eles discordam sobre quanto a mudança é excessiva.

  • A Analogia Humana: Os humanos são rigorosos. Se você esticar o pescoço de um Dax até que ele pareça uma girafa, nós dizemos: "Não, isso não é um Dax".
  • O Resultado da IA: Os modelos de IA foram generosos demais. Eles continuaram chamando o objeto de "Dax" mesmo quando ele era esticado, deformado ou tinha partes extras adicionadas. Eles estavam dispostos a aceitar uma gama muito maior de estranheza do que os humanos.

A Analogia: Imagine que um humano e um robô estão jogando um jogo onde você tem que adivinhar se duas fotos são do mesmo animal.

  • Humano: "Aquele é um gato. E aquele... é um gato com uma cauda bem longa. Ainda é um gato. Mas aquilo? Aquilo é um gato com uma cabeça de cachorro. Não, isso não é um gato."
  • Robô: "Aquele é um gato. Aquele é um gato com uma cauda longa. Aquele é um gato com uma cabeça de cachorro. Aquele é um gato com uma árvore crescendo nele. Sim, isso ainda é um gato."

5. Por que isso importa (Segundo o Artigo)

O artigo conclui que, embora a IA esteja ficando melhor em aprender coisas novas sobre a hora, ela não possui as mesmas fronteiras de "senso comum" que os humanos possuem.

Se um humano e uma IA estiverem tentando se comunicar sobre um novo objeto no mundo real, o humano pode pensar: "Isso está muito quebrado para ser a mesma coisa", enquanto a IA insiste: "Não, ainda é a mesma coisa". Esse descompasso pode dificultar o trabalho conjunto de forma eficaz no futuro.

Em resumo: A IA consegue aprender palavras novas, mas está disposta demais a esticar a definição dessas palavras, especialmente quando o objeto parece muito diferente do original.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →