Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

O artigo apresenta o "Super Research", uma nova tarefa e benchmark que avalia a capacidade de modelos de linguagem de responder a questões altamente complexas através de planejamento estruturado, recuperação super ampla e investigação super profunda, utilizando um protocolo de auditoria baseado em grafos para medir a qualidade das pesquisas autônomas.

Yubo Dong, Nianhao You, Yuxuan Hou, Zixun Sun, Yue Zhang, Liang Zhang, Siyuan Zhao, Hehe Fan

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um assistente de pesquisa para resolver um mistério extremamente complexo, como: "Como equilibrar perfeitamente a ativação das células de defesa do corpo contra um tumor, sem que o próprio corpo ataque seus tecidos saudáveis?"

A maioria dos assistentes de IA atuais (os "pesquisadores comuns") tentaria responder a isso de duas maneiras limitadas:

  1. O "Túnel" (Deep Research): Eles mergulhariam fundo em um único livro ou artigo, ignorando outras perspectivas. É como tentar entender uma floresta inteira olhando apenas para uma única árvore.
  2. O "Mar de Papel" (Wide Search): Eles leriam centenas de páginas rapidamente, mas sem profundidade. É como tentar entender a floresta passando correndo por ela de helicóptero; você vê tudo, mas não entende nada de verdade.

O artigo "Super Research" apresenta uma nova abordagem que combina o melhor dos dois mundos: Super Profundidade e Super Amplitude.

Aqui está a explicação do conceito, usando analogias do dia a dia:

1. O Que é "Super Research"?

Pense no Super Research como a diferença entre um estudante universitário fazendo um trabalho de conclusão de curso e um detetive de elite investigando um crime internacional.

  • O Detetive (Super Research): Não apenas lê um arquivo. Ele:
    • Planeja: Cria um mapa do crime (decomposição estruturada).
    • Investiga Ampla: Entrevista 100 testemunhas diferentes de vários países (recuperação super ampla).
    • Investiga Profunda: Faz perguntas de acompanhamento para cada testemunha até resolver as contradições (investigação super profunda).
    • Conclui: Escreve um relatório de 50 páginas, citando exatamente quem disse o quê, e explica como todas as peças se encaixam.

Para fazer isso, o sistema precisa dar mais de 100 passos de pesquisa e ler mais de 1.000 páginas da web. É um nível de complexidade que os modelos atuais de IA ainda têm muita dificuldade em alcançar.

2. O Problema: Por que os modelos atuais falham?

O artigo diz que os modelos de IA de hoje são como alunos que estudam para uma prova, mas só leem o resumo do capítulo.

  • Eles podem encontrar fatos simples ("O que é um tumor?").
  • Mas eles falham quando precisam conectar pontos distantes, lidar com informações contraditórias ou planejar uma pesquisa de longo prazo. Eles tendem a "alucinar" (inventar fatos) ou ficar confusos quando o caminho de raciocínio é muito longo.

3. A Solução: O "Banco de Dados de Verdade" (O Grafo de Pesquisa)

A parte mais genial do artigo não é apenas fazer a pesquisa, mas como eles verificam se a resposta está certa.

Imagine que, em vez de apenas ler o relatório final do aluno, o professor tem um mapa de tesouro (chamado Research Graph) que contém todos os fatos verdadeiros, as conexões lógicas e as nuances do assunto.

  • A Avaliação Tradicional: O professor lê o relatório e diz: "Parece bom, nota 8". (Isso é subjetivo e pode errar).
  • A Avaliação Super Research: O sistema projeta o relatório do aluno sobre o mapa de tesouro.
    • O aluno mencionou o fato X? (Sim/Não).
    • O aluno conectou o fato A ao fato B corretamente? (Sim/Não).
    • O aluno foi tendencioso? (Ele ouviu apenas um lado da história?).

Isso cria uma nota precisa baseada em cobertura, lógica, utilidade, objetividade e saúde das citações.

4. O Resultado: O "Teto" da Inteligência

Os autores criaram um teste com 300 perguntas de nível de especialista (feitas por doutores e profissionais de ponta).

O resultado foi chocante:

  • Mesmo os modelos de IA mais avançados do mundo (como o Gemini Deep Research, o Sonar, o o3 da OpenAI) tiveram notas muito baixas (em torno de 28 pontos em 100).
  • Isso significa que, para tarefas realmente complexas, a IA ainda está na "infância". Eles conseguem fazer o básico, mas falham miseravelmente quando precisam de um raciocínio estratégico de longo prazo.

5. Por que isso importa?

Você pode pensar: "Mas eu não preciso que a IA resolva problemas de imunologia complexa todos os dias."

O artigo argumenta que o Super Research é um "teste de estresse".

  • Se um carro de corrida consegue vencer uma pista de obstáculos extrema (Super Research), ele certamente conseguirá dirigir no trânsito comum (tarefas simples) com segurança.
  • Se a IA consegue navegar por esse caos de informações, ela será confiável para qualquer tarefa menor, como resumir notícias, analisar contratos ou planejar viagens.

Resumo em uma frase:

O Super Research é um novo desafio que força a Inteligência Artificial a agir como um cientista sênior (lendo milhares de fontes, conectando ideias complexas e verificando cada fato), servindo como o teste definitivo para ver se as IAs estão realmente prontas para o futuro ou se ainda estão apenas "chutando" as respostas.