VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

O artigo apresenta o VisBrowse-Bench, um novo benchmark e fluxo de trabalho de agente projetados para avaliar a capacidade de raciocínio visual nativo em agentes de navegação multimodal, revelando que os modelos mais avançados atuais ainda apresentam desempenho limitado nessa tarefa.

Zhengbo Zhang, Jinbo Su, Zhaowen Zhou, Changtao Miao, Yuhan Hong, Qimeng Wu, Yumeng Liu, Feier Wu, Yihe Tian, Yuhao Liang, Zitong Shan, Wanke Xia, Yi-Fan Zhang, Bo Zhang, Zhe Li, Shiming Xiang, Ying Y
Publicado 2026-03-18
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive superinteligente, um "agente" que pode navegar na internet, ler textos e olhar fotos para responder a perguntas difíceis. O artigo que você enviou apresenta um novo desafio para esses detetives, chamado VisBrowse-Bench.

Aqui está a explicação do trabalho, traduzida para uma linguagem simples e cheia de analogias:

1. O Problema: O Detetive que Só Lê, Não Olha

Até agora, os testes para esses agentes de IA focavam muito em texto. Era como se você desse a um detetive um caso complexo, mas só permitisse que ele lesse jornais. Se a pista estivesse escondida em uma foto (como a cor de uma gravata em um pôster ou o número de um jogador em uma camisa), o detetive muitas vezes falhava ou tentava adivinhar.

Os autores dizem que os testes antigos tinham dois grandes defeitos:

  • O Truque da Busca Reversa: Se você mostrava uma foto de um prédio, o agente podia apenas usar uma ferramenta de "busca reversa de imagem" (como o Google Imagens) e a resposta aparecia magicamente no texto. O agente não precisava entender a imagem, apenas usá-la como uma chave.
  • O Mundo é Multimodal, mas o Teste era Cego: Na vida real, a internet é uma mistura de textos e imagens. Mas nos testes antigos, assim que o agente encontrava o nome de algo na imagem, todo o resto do trabalho virava apenas leitura de texto. Era como se o detetive visse a foto do suspeito, anotasse o nome, e depois ignorasse todas as outras fotos do caso, confiando apenas em descrições escritas.

2. A Solução: O "VisBrowse-Bench" (O Desafio Visual-Nativo)

Os pesquisadores criaram um novo campo de treinamento, o VisBrowse-Bench, que é como um "gym" (academia) de alta intensidade para esses agentes.

  • A Regra de Ouro: Para responder à pergunta, o agente precisa olhar para as fotos em cada etapa. Não basta ler; ele tem que analisar detalhes visuais que não podem ser descritos em palavras.
  • O Exemplo do "Pote de Manteiga": Imagine que a pergunta é: "Qual era a cor do pote de manteiga que a pessoa segura na foto do pôster do filme X?".
    • Se o agente só ler o texto, ele não sabe.
    • Se ele usar a busca reversa, ele pode achar o pôster, mas não saberá a cor se a descrição do site não mencionar.
    • Ele precisa cortar a imagem (como usar uma lupa), olhar o pote, identificar a cor e cruzar essa informação com outras fotos encontradas na internet.

3. Como Funciona o Treinamento (O Fluxo de Trabalho)

Os autores criaram um "robô" (um fluxo de trabalho) que força a IA a agir como um investigador real:

  1. Olhar: Analisar a imagem inicial.
  2. Perguntar: Usar ferramentas para buscar mais fotos ou textos relacionados.
  3. Cortar: Dar zoom em partes específicas da imagem (como o rosto de uma pessoa ou um logotipo).
  4. Conectar: Juntar a informação visual (ex: "essa pessoa é o ator X") com a informação textual (ex: "o ator X usou uma gravata preta em 2025").

Eles criaram 169 casos difíceis cobrindo temas como esportes, arte, finanças e tecnologia. Cada caso foi feito por especialistas humanos para garantir que não existam "atalhos" fáceis.

4. O Resultado: A Realidade é Dura

Eles testaram os maiores cérebros de IA do mundo (como o Claude, o GPT-5 e o Gemini) nesse novo desafio. O resultado foi um choque de realidade:

  • Ninguém passou de raspão: Mesmo o melhor modelo (Claude-4.6-Opus) acertou apenas 47,6% das perguntas.
  • A maioria tropeça: A maioria dos modelos ficou em torno de 30% de acerto.
  • O que isso significa? Significa que, embora essas IAs sejam ótimas em conversar e ler, elas ainda são muito ruins em investigar visualmente na internet. Elas tendem a confiar demais no que já sabem de memória ou a tentar resolver tudo apenas com texto, ignorando que a resposta está escondida em pixels de uma foto.

5. Por que isso importa?

Hoje, usamos a internet para tudo: comprar roupas (olhando fotos), verificar notícias (confirmando imagens de eventos) ou estudar (analisando gráficos). Se a IA não consegue "ver" e "raciocinar" com as imagens enquanto navega, ela não é um verdadeiro assistente para o mundo real.

Em resumo:
O VisBrowse-Bench é como um teste de direção para IAs. Antes, o teste era apenas "saber a teoria de trânsito" (texto). Agora, o teste exige que o carro (a IA) realmente dirija, veja os sinais, desvie de obstáculos e leia o mapa visual ao mesmo tempo. E, até agora, a maioria dos carros ainda está batendo no primeiro obstáculo.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →