DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um assistente de IA que escrevesse um relatório de especialista sobre um tema complexo, como "Como a energia solar de próxima geração pode salvar o planeta" ou "Por que a economia está em crise".

Antes deste trabalho (chamado DEER), era muito difícil saber se o relatório que a IA entregou era realmente bom ou se ela apenas "alucinou" (inventou fatos) com uma escrita bonita. Era como pedir um prato gourmet a um chef robô e, em vez de provar a comida, você só olhava se o prato estava bonito.

Aqui está a explicação do que os pesquisadores fizeram, usando analogias do dia a dia:

1. O Problema: O "Chefe" que não sabe cozinhar

Até agora, para avaliar esses relatórios, usávamos outras IAs como juízes. O problema? Essas IAs juízas muitas vezes não têm o conhecimento profundo de um especialista humano. Elas podem achar que um relatório é ótimo porque a gramática está perfeita, mesmo que os dados estejam errados. Além disso, ninguém sabia exatamente o que avaliar: a estrutura? A profundidade? A veracidade das fontes?

2. A Solução: O "Manual do Mestre" (DEER)

Os autores criaram o DEER, que é como um manual de inspeção de qualidade definitivo para relatórios de pesquisa. Eles não inventaram regras do nada; eles olharam para como cientistas, jornalistas e consultores reais escrevem seus melhores trabalhos e criaram um "mapa" de avaliação.

A Taxonomia (O Mapa): Eles criaram um sistema com 7 grandes dimensões (como "Atender ao Pedido", "Lógica Sólida", "Ética") e 25 subcategorias. Pense nisso como um checklist de 101 itens.
- Analogia: É como um inspetor de voo que não olha apenas se o avião voou, mas verifica se o motor foi revisado, se o piloto seguiu o manual, se o combustível era o certo e se a rota foi segura.

3. A Grande Inovação: O "Detetive de Fatos"

A parte mais brilhante do DEER é como ele lida com a verdade.

O Problema: Muitas IAs citam fontes, mas às vezes inventam citações ou usam fontes que não dizem o que a IA diz que dizem. Outras vezes, fazem afirmações sem citar nada.
A Solução do DEER: Eles criaram um sistema de "Detetive" que faz duas coisas:
1. Rastreia o que está escrito: Ele lê o relatório e pergunta: "Onde você viu isso?".
2. Rastreia o que não está escrito: Se a IA diz "O estudo X diz isso", mas não coloca o número [1] na frase, o Detetive olha para as frases anteriores para ver se a fonte está escondida ali (como um "backtracking" ou retrocesso semântico).
3. Verifica a fonte: Ele vai até a fonte original na internet para ver se ela realmente apoia a afirmação.
Analogia: Imagine que você está em um tribunal. O advogado (IA) diz: "A testemunha disse isso!". O juiz (DEER) não apenas acredita nele. O juiz pega o livro de depoimentos, encontra a página exata e lê a frase para ver se o advogado está mentindo ou se a testemunha realmente disse aquilo.

4. Como Funciona na Prática (O "Jogo de Avaliação")

Para testar isso, eles pegaram 50 perguntas difíceis de um exame de nível de doutorado (chamado HLE) e transformaram-nas em pedidos de relatório. Depois, pediram para várias IAs famosas (como GPT-5, Claude, Gemini) escreverem os relatórios.

Depois, usaram o sistema DEER para avaliar:

A IA como Juíza (com ajuda humana): Eles deram ao manual de 101 itens e um "guia de especialista" para a IA juíza. Isso ajudou a IA a entender o contexto, como um aluno que estuda o gabarito antes da prova.
O Resultado: Descobriram que as IAs são ótimas em escrever textos bonitos e estruturados (a "capa" do relatório), mas ainda falham muito em atender ao pedido específico do usuário e em ter lógica profunda. Elas tendem a usar poucas fontes e, às vezes, inventam conexões lógicas.

5. Por que isso é importante?

O DEER não serve apenas para dar uma nota de 0 a 10. Ele funciona como um diagnóstico médico.

Em vez de dizer apenas "Sua IA é ruim", ele diz: "Sua IA é ótima em formatação, mas péssima em verificar fatos e não cita fontes suficientes".
Isso ajuda os desenvolvedores a saberem exatamente onde consertar seus robôs.

Resumo em uma frase:

O DEER é como um inspetor de qualidade de elite que, em vez de apenas olhar se o relatório está bonito, vai até a cozinha, verifica se os ingredientes (fontes) são reais, se o chef (IA) seguiu a receita e se o prato final realmente satisfaz o cliente, garantindo que a inteligência artificial não esteja apenas "falando bonito", mas sim "pensando e pesquisando de verdade".

Each language version is independently generated for its own context, not a direct translation.

Título: DEER: Um Benchmark para Avaliar Agentes de Pesquisa Profunda na Geração de Relatórios Especializados

1. O Problema

Os avanços recentes em Grandes Modelos de Linguagem (LLMs) permitiram o surgimento de sistemas de "pesquisa profunda" (deep research) que geram relatórios especializados através de raciocínio multi-etapa e síntese baseada em evidências. No entanto, a avaliação da qualidade desses relatórios enfrenta desafios significativos:

Critérios Ambíguos: A qualidade de um relatório é multifacetada, e os métodos existentes frequentemente usam dimensões de alto nível e vagas, dificultando uma avaliação precisa.
Limitações dos Juízes LLM: Avaliações baseadas em LLMs podem falhar ao identificar erros que exigem conhecimento de domínio específico ou expertise técnica.
Verificação Incompleta: A verificação de fontes geralmente se restringe a afirmações com citações explícitas, ignorando alegações implícitas ou não citadas, o que compromete a confiabilidade factual do relatório como um todo.
Falta de Diagnóstico: As comparações de desempenho atuais muitas vezes fornecem apenas uma pontuação agregada, sem oferecer sinais diagnósticos granulares para melhorar os sistemas.

2. Metodologia

O DEER (Deep research Expert Report benchmark) propõe um framework de avaliação sistemático e interpretável, composto por três pilares principais:

A. Construção do Dataset e Tarefa

Origem das Tarefas: O benchmark utiliza 50 tarefas de geração de relatórios derivadas de perguntas de alta dificuldade do Humanity's Last Exam (HLE), reformuladas por especialistas de domínio para transformar perguntas de resposta curta em prompts de relatórios acadêmicos/profissionais.
Cobertura: As tarefas abrangem 13 domínios de conhecimento (ex: Física, História, Engenharia, Medicina), baseados em uma análise de consultas reais de usuários de sistemas de pesquisa.

B. Taxonomia de Avaliação (O "Cérebro" do DEER)
O DEER sistematiza os critérios de avaliação em uma taxonomia hierárquica desenvolvida por consenso de especialistas, baseada em 80 normas e diretrizes de relatórios de 20 áreas distintas:

7 Dimensões Principais:
1. Atendimento à Solicitação (Request Fulfillment)
2. Solidez Analítica (Analytical Soundness)
3. Coerência Estrutural (Structural Coherence)
4. Formato e Estilo (Format & Style)
5. Ética e Conformidade (Ethics & Compliance)
6. Suficiência de Informação (Information Sufficiency)
7. Integridade da Informação (Information Integrity)
Estrutura Detalhada: A taxonomia desce para 25 subdimensões e é operacionalizada em 101 itens de rubrica fina (fine-grained rubric items).
Guia de Avaliação Especializada: Para mitigar a falta de conhecimento de domínio dos LLMs juízes, o DEER fornece "Expert Evaluation Guidance" (Guia de Avaliação Especializada) específico para cada tarefa, detalhando os elementos de conteúdo obrigatórios e expectativas de especialistas.

C. Arquitetura de Avaliação Híbrida
O framework avalia os relatórios em duas componentes complementares:

Avaliação de Qualidade do Relatório (Rubrica): Utiliza a abordagem LLM-as-a-Judge com os 101 itens de rubrica e os guias especializados para pontuar a qualidade do texto, lógica e estrutura.
Verificação de Informação Externa (Métricas): Um módulo automatizado que:
- Extrai todas as afirmações (claims) do relatório.
- Classifica afirmações em tipos (A: Citadas, B/C: Implícitas mas recuperáveis, D-F: Estruturais/Não verificáveis).
- Rastreamento Semântico (Back-Tracking): Recupera citações implícitas rastreando dependências semânticas para afirmações não citadas explicitamente, expandindo o escopo de verificação.
- Verifica a factualidade e a qualidade das fontes contra documentos externos, gerando métricas quantitativas de Integridade e Suficiência.

3. Principais Contribuições

Benchmark DEER: Um benchmark sistemático e interpretável para relatórios de pesquisa profunda, fundamentado em uma taxonomia hierárquica validada por especialistas.
Rubrica Padronizada: Tradução da taxonomia em 101 itens de rubrica fixos e detalhados, permitindo diagnósticos consistentes e comparáveis entre tarefas.
Guia Especializado: Introdução de guias de avaliação específicos por tarefa para alinhar a pontuação de LLMs com o julgamento de especialistas humanos.
Arquitetura de Verificação de Informações: Um sistema que verifica tanto afirmações citadas quanto não citadas (através de back-tracking implícito), quantificando a qualidade das evidências e a integridade factual em nível de relatório.

4. Resultados Experimentais

Os autores avaliaram diversos sistemas (LLMs gerais, modelos com raciocínio, modelos com busca na web e sistemas dedicados de pesquisa profunda) usando o DEER:

Desempenho Geral: Os sistemas atuais produzem relatórios estruturalmente plausíveis e com bom estilo, mas falham em atender plenamente a solicitações de nível de especialista e em garantir a completude lógica.
Dimensões Críticas: Os sistemas pontuam baixo em "Atendimento à Solicitação" (especialmente na definição de escopo e limitações) e "Suficiência de Informação" (tendem a usar um número pequeno de referências).
Impacto da Busca: Adicionar busca na web (think+search) nem sempre melhora a qualidade do relatório em si; em alguns casos, a integração de informações externas diversas pode "embaçar" a definição do problema e a estrutura do argumento se não for bem orquestrada.
Correlação Humana: A metodologia do DEER (especialmente com o Expert Guidance) alcançou a maior correlação com julgamentos humanos (Pearson $r \approx 0.75$ ) e a maior confiabilidade entre avaliadores (Krippendorff's $\alpha \approx 0.55$ ), superando abordagens anteriores que usavam apenas rubricas geradas por LLM.
Eficiência: O módulo de verificação de informações demonstrou ser altamente eficiente, com um custo médio de $0.50-$1.00 por relatório, mantendo alta precisão na detecção de afirmações não suportadas.

5. Significado e Impacto

O DEER representa um avanço crucial na avaliação de agentes de IA para tarefas complexas de pesquisa:

Diagnóstico Granular: Vai além de uma simples comparação de pontuação, permitindo identificar fraquezas específicas de um sistema (ex: falha em citar fontes diversas vs. falha em lógica analítica).
Padronização de Qualidade: Estabelece um padrão baseado em normas acadêmicas e profissionais reais para o que constitui um "bom" relatório de pesquisa gerado por IA.
Confiabilidade Factual: Ao introduzir a verificação de afirmações implícitas e não citadas, o DEER aborda uma lacuna crítica na confiabilidade de sistemas de IA, onde alucinações podem ocorrer sem marcas de citação explícitas.
Direção Futura: O framework fornece os sinais necessários para o desenvolvimento iterativo de agentes de pesquisa profunda, focando não apenas em "encontrar" informações, mas em sintetizá-las com rigor analítico e integridade factual.

Em resumo, o DEER oferece uma estrutura robusta para mover a avaliação de sistemas de pesquisa profunda de métricas superficiais para uma análise profunda, baseada em evidências e alinhada com os padrões de excelência humana.

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

1. O Problema: O "Chefe" que não sabe cozinhar

2. A Solução: O "Manual do Mestre" (DEER)

3. A Grande Inovação: O "Detetive de Fatos"

4. Como Funciona na Prática (O "Jogo de Avaliação")

5. Por que isso é importante?

Resumo em uma frase:

Título: DEER: Um Benchmark para Avaliar Agentes de Pesquisa Profunda na Geração de Relatórios Especializados

1. O Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance