The macaque IT cortex but not current artificial vision networks encode object position in perceptually aligned coordinates

Este estudo demonstra que o córtex IT de macacos codifica a posição de objetos em coordenadas perceptualmente alinhadas, refletindo ilusões visuais como o efeito de pós-imagem de movimento, enquanto as redes de visão artificial atuais, embora precisas na localização, não reproduzem essas distorções dependentes do histórico visual.

Elizaveta Yakubovskaya, Hamidreza Ramezanpour, Matteo Dunnhofer, Kohitij Kar

Publicado Fri, 13 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

🧠 O Cérebro vs. A Inteligência Artificial: Quem "Vê" Melhor a Posição?

Imagine que você está em uma sala cheia de objetos. Para interagir com o mundo, seu cérebro precisa fazer duas coisas ao mesmo tempo:

  1. O QUE é isso? (É uma maçã? É um carro?)
  2. ONDE está isso? (Está à minha esquerda? Está longe?)

Por muito tempo, os cientistas achavam que o cérebro tinha duas "equipes" separadas para isso: uma equipe especializada em identificar objetos (o "O Quê") e outra especializada em localizá-los no espaço (o "Onde").

Este estudo descobriu que essa separação não é tão rígida quanto pensávamos. Mais importante ainda: eles provaram que o cérebro humano (e de macacos) é muito mais esperto do que os computadores de visão atuais (Inteligência Artificial) quando se trata de entender onde as coisas estão, especialmente quando ilusões de ótica estão envolvidas.

🎢 A Analogia do "Efeito de Aceleração" (O Segredo do Estudo)

Para testar isso, os pesquisadores usaram um truque clássico chamado Efeito de Movimento Pós-Adaptação.

A Analogia do Carrossel:
Imagine que você fica girando em um carrossel por 30 segundos. Quando você para e olha para uma árvore parada, a árvore parece estar girando na direção oposta, certo? Seu cérebro ainda está "acostumado" com o movimento.

Os cientistas fizeram algo parecido com a visão:

  1. Eles mostraram a pessoas e macacos uma tela com listras se movendo para a direita por um longo tempo.
  2. Depois, mostraram uma foto de um objeto (como um urso ou um carro) parado no centro da tela.
  3. O Truque: O objeto estava fisicamente no mesmo lugar. Mas, porque o cérebro estava "gastando" com o movimento para a direita, as pessoas e os macacos sentiram que o objeto estava deslocado para a esquerda.

É como se o cérebro tivesse um "desvio" na sua bússola interna.

🧪 O Que Eles Descobriram?

Os pesquisadores olharam dentro do cérebro de macacos (na parte chamada Córtex IT, que é a "cabeça pensante" da visão) e compararam com o que acontece em redes neurais de computadores (como as que usam carros autônomos ou reconhecimento facial).

1. O Cérebro (Macaco e Humano): "Eu sinto o deslocamento!"
Quando o cérebro foi "enganado" pelo movimento, a atividade elétrica nas células que identificam o objeto mudou.

  • A Mágica: Mesmo que a foto do objeto não tivesse se movido nem um pixel, o cérebro "reorganizou" seus mapas internos. Ele disse: "Ok, o objeto está aqui, mas minha bússola está desviada, então vou registrar que ele está um pouco à esquerda".
  • Resultado: A leitura neural do cérebro coincidia perfeitamente com o que as pessoas sentiam (a ilusão). O cérebro não apenas vê os pixels; ele vê a experiência da posição.

2. A Inteligência Artificial (Computadores): "Eu vejo apenas os pixels."
Eles testaram várias redes neurais modernas (como VGG, ResNet, e modelos de vídeo).

  • O Problema: Quando os computadores viram a mesma foto parada após o "movimento" (simulado), eles não mudaram sua opinião. Para o computador, o objeto continuou exatamente no centro.
  • Por quê? Os computadores atuais são como câmeras muito rápidas que tiram uma foto e a analisam. Eles não têm a "memória" ou a "sensação" de que acabaram de ver movimento. Eles são cegos para a ilusão.

🛠️ O Experimento de "Neuralização" (Colocando o Cérebro no Computador)

Os pesquisadores pensaram: "Será que os computadores são incapazes de fazer isso, ou só precisam de um ajuste?"

Eles fizeram uma engenharia reversa:

  1. Pegaram os dados de como o cérebro do macaco mudou sua atividade.
  2. Criaram uma "receita matemática" baseada nisso.
  3. Aplicaram essa receita nos dados dos computadores.

O Resultado Surpreendente: Assim que eles aplicaram a "lógica do cérebro" nos computadores, as máquinas começaram a alucinar da mesma forma que os humanos! Elas passaram a "achar" que o objeto estava deslocado.

Isso prova duas coisas:

  1. Os computadores podem ter essa capacidade, mas falta a eles o mecanismo interno para gerar isso sozinhos.
  2. O segredo não é apenas "ver" o objeto, mas como o cérebro reorganiza sua visão baseada no que viu antes.

💡 Por Que Isso Importa?

  • Para a Ciência: Descobrimos que a parte do cérebro responsável por "O Que" (identificar objetos) também é fundamental para "Onde" (localizar), e que essa localização é baseada na nossa percepção, não apenas na física da imagem.
  • Para a Tecnologia: As IAs de visão atuais são incríveis para identificar objetos, mas são "cegas" para contextos dinâmicos e ilusões. Para criar robôs ou carros autônomos que realmente entendam o mundo como nós (com todas as suas nuances e ilusões), precisamos ensinar a eles a ter "história" e "adaptação", não apenas processar a imagem atual.

📝 Resumo em Uma Frase

O cérebro humano (e de macacos) é como um navegador GPS que se ajusta à sua sensação de movimento, enquanto a Inteligência Artificial atual é como um mapa estático que ignora completamente como você se sentiu antes de olhar para o destino.