DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

O artigo apresenta o DEER, um benchmark que avalia relatórios de pesquisa profunda gerados por IA através de uma taxonomia detalhada de critérios de qualidade, diretrizes para juízes baseados em LLM e uma arquitetura de verificação de alegações, revelando que os sistemas atuais, embora estruturalmente plausíveis, ainda precisam melhorar na satisfação de solicitações de nível especializado e na completude lógica.

Janghoon Han, Heegyu Kim, Changho Lee, Dahm Lee, Min Hyung Park, Hosung Song, Stanley Jungkyu Choi, Moontae Lee, Honglak Lee

Publicado Wed, 11 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um assistente de IA que escrevesse um relatório de especialista sobre um tema complexo, como "Como a energia solar de próxima geração pode salvar o planeta" ou "Por que a economia está em crise".

Antes deste trabalho (chamado DEER), era muito difícil saber se o relatório que a IA entregou era realmente bom ou se ela apenas "alucinou" (inventou fatos) com uma escrita bonita. Era como pedir um prato gourmet a um chef robô e, em vez de provar a comida, você só olhava se o prato estava bonito.

Aqui está a explicação do que os pesquisadores fizeram, usando analogias do dia a dia:

1. O Problema: O "Chefe" que não sabe cozinhar

Até agora, para avaliar esses relatórios, usávamos outras IAs como juízes. O problema? Essas IAs juízas muitas vezes não têm o conhecimento profundo de um especialista humano. Elas podem achar que um relatório é ótimo porque a gramática está perfeita, mesmo que os dados estejam errados. Além disso, ninguém sabia exatamente o que avaliar: a estrutura? A profundidade? A veracidade das fontes?

2. A Solução: O "Manual do Mestre" (DEER)

Os autores criaram o DEER, que é como um manual de inspeção de qualidade definitivo para relatórios de pesquisa. Eles não inventaram regras do nada; eles olharam para como cientistas, jornalistas e consultores reais escrevem seus melhores trabalhos e criaram um "mapa" de avaliação.

  • A Taxonomia (O Mapa): Eles criaram um sistema com 7 grandes dimensões (como "Atender ao Pedido", "Lógica Sólida", "Ética") e 25 subcategorias. Pense nisso como um checklist de 101 itens.
    • Analogia: É como um inspetor de voo que não olha apenas se o avião voou, mas verifica se o motor foi revisado, se o piloto seguiu o manual, se o combustível era o certo e se a rota foi segura.

3. A Grande Inovação: O "Detetive de Fatos"

A parte mais brilhante do DEER é como ele lida com a verdade.

  • O Problema: Muitas IAs citam fontes, mas às vezes inventam citações ou usam fontes que não dizem o que a IA diz que dizem. Outras vezes, fazem afirmações sem citar nada.

  • A Solução do DEER: Eles criaram um sistema de "Detetive" que faz duas coisas:

    1. Rastreia o que está escrito: Ele lê o relatório e pergunta: "Onde você viu isso?".
    2. Rastreia o que não está escrito: Se a IA diz "O estudo X diz isso", mas não coloca o número [1] na frase, o Detetive olha para as frases anteriores para ver se a fonte está escondida ali (como um "backtracking" ou retrocesso semântico).
    3. Verifica a fonte: Ele vai até a fonte original na internet para ver se ela realmente apoia a afirmação.
  • Analogia: Imagine que você está em um tribunal. O advogado (IA) diz: "A testemunha disse isso!". O juiz (DEER) não apenas acredita nele. O juiz pega o livro de depoimentos, encontra a página exata e lê a frase para ver se o advogado está mentindo ou se a testemunha realmente disse aquilo.

4. Como Funciona na Prática (O "Jogo de Avaliação")

Para testar isso, eles pegaram 50 perguntas difíceis de um exame de nível de doutorado (chamado HLE) e transformaram-nas em pedidos de relatório. Depois, pediram para várias IAs famosas (como GPT-5, Claude, Gemini) escreverem os relatórios.

Depois, usaram o sistema DEER para avaliar:

  • A IA como Juíza (com ajuda humana): Eles deram ao manual de 101 itens e um "guia de especialista" para a IA juíza. Isso ajudou a IA a entender o contexto, como um aluno que estuda o gabarito antes da prova.
  • O Resultado: Descobriram que as IAs são ótimas em escrever textos bonitos e estruturados (a "capa" do relatório), mas ainda falham muito em atender ao pedido específico do usuário e em ter lógica profunda. Elas tendem a usar poucas fontes e, às vezes, inventam conexões lógicas.

5. Por que isso é importante?

O DEER não serve apenas para dar uma nota de 0 a 10. Ele funciona como um diagnóstico médico.

  • Em vez de dizer apenas "Sua IA é ruim", ele diz: "Sua IA é ótima em formatação, mas péssima em verificar fatos e não cita fontes suficientes".
  • Isso ajuda os desenvolvedores a saberem exatamente onde consertar seus robôs.

Resumo em uma frase:

O DEER é como um inspetor de qualidade de elite que, em vez de apenas olhar se o relatório está bonito, vai até a cozinha, verifica se os ingredientes (fontes) são reais, se o chef (IA) seguiu a receita e se o prato final realmente satisfaz o cliente, garantindo que a inteligência artificial não esteja apenas "falando bonito", mas sim "pensando e pesquisando de verdade".