Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

O segundo track de Geração Aumentada por Recuperação (RAG) do TREC 2025 avança a pesquisa em sistemas que integram recuperação e geração para atender a necessidades informacionais complexas, introduzindo consultas narrativas longas e um quadro de avaliação multifacetado para fomentar a criação de sistemas confiáveis e contextualmente conscientes.

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando resolver um mistério complexo, como "Como o esporte afeta a sociedade?". Antigamente, os sistemas de busca funcionavam como um caçador de palavras-chave: se você digitasse "esporte" e "dinheiro", eles te davam uma lista de documentos que continham essas duas palavras, mas muitas vezes sem contexto ou profundidade.

O artigo que você leu descreve o TREC 2025, um grande campeonato mundial onde cientistas de computação competem para criar a próxima geração de assistentes de IA. O objetivo não é mais apenas "encontrar" informações, mas sim entender, raciocinar e contar uma história completa baseada em fatos.

Aqui está uma explicação simples do que aconteceu, usando analogias do dia a dia:

1. A Mudança de Jogo: De "Caça-Palavras" para "Detetives"

No ano passado, as perguntas eram curtas e diretas. Neste ano (2025), os organizadores mudaram as regras. Em vez de perguntas simples, eles criaram narrativas complexas.

  • A Analogia: Imagine que antes você perguntava a um bibliotecário: "Onde está o livro sobre futebol?". Agora, você diz: "Estou interessado no impacto social do esporte, especialmente sobre como os atletas são pagos, a inclusão de minorias, a influência cultural e o lado dos negócios. Também quero entender como o equipamento e a mentalidade mudaram o esporte."
  • O Desafio: A IA precisa agir como um detetive experiente. Ela não pode apenas jogar uma resposta genérica; ela precisa ler centenas de documentos, conectar os pontos e escrever um relatório que responda a todas essas partes da sua história, citando exatamente de onde tirou cada informação.

2. As Quatro Provas do Campeonato

Os participantes tiveram que criar sistemas que passassem por quatro etapas, como se fossem fases de um jogo de vídeo game:

  • A Prova de Busca (Retrieval): O sistema precisa encontrar as "peças do quebra-cabeça" certas em uma biblioteca gigante (o corpus MS MARCO). Se ele pegar a peça errada, o resto do jogo falha.
  • A Prova de Geração (Generation): O sistema recebe as peças certas e precisa montar a imagem (a resposta). Ele deve escrever um texto claro, com no máximo 400 palavras.
  • A Prova Completa (RAG - Retrieval Augmented Generation): Aqui, o sistema faz tudo sozinho: busca as peças e monta a imagem. É o teste final de autonomia.
  • A Prova de Julgamento (Relevance Judgment): Os participantes também tiveram que atuar como juízes, dizendo o quão útil cada documento encontrado era para a pergunta.

3. O Sistema de Pontuação: Como sabemos quem ganhou?

Aqui está a parte mais criativa. Como julgar se uma resposta de IA é boa? Eles usaram um sistema de três camadas, como se fosse uma inspeção de qualidade em uma fábrica de carros:

  1. Relevância (O Motor): A resposta tem o motor certo? Ou seja, ela cobre os pontos principais da pergunta? Eles quebraram a pergunta grande em "sub-perguntas" (ex: "pagamento", "inclusão", "negócios") e viram se o texto respondeu a cada uma delas.
  2. Cobertura (O Chassi): A resposta é completa? Eles criaram "nuggets" (pequenas unidades de informação valiosa, como "atletas mulheres recebem menos"). Se a resposta do sistema incluir esses nuggets, ganha pontos.
  3. Atribuição (O Freio de Segurança): Esta é a parte mais importante para evitar "alucinações" (mentiras). Cada frase da resposta da IA precisa ter uma citação (um "link" para o documento original).
    • Analogia: Se a IA diz "O salário dos atletas subiu 10%", ela deve mostrar o documento que prova isso. Se ela inventar o número, é como um carro sem freios: perigoso e desclassificado.

4. O Grande Resultado: Humanos vs. Robôs

Um dos maiores desafios foi: "Podemos confiar em robôs para julgar o trabalho de outros robôs?"

  • Os organizadores usaram um exército de IAs superpoderosas (como GPT-4 e Qwen) para tentar imitar os juízes humanos.
  • O Veredito: Funciona muito bem! Em nível geral (quando olhamos para o ranking de todos os sistemas), as IAs conseguiram imitar os humanos com grande precisão. É como se um juiz robótico conseguisse dizer "Este time jogou melhor que aquele" com quase a mesma certeza que um humano.
  • No entanto, em detalhes muito específicos (frase por frase), ainda há pequenas diferenças, como um juiz que às vezes é mais rigoroso que o outro.

Resumo Final

O TREC 2025 RAG Track foi um marco porque mostrou que estamos saindo da era da "busca simples" para a era da "busca inteligente e confiável".

O objetivo final não é apenas ter um robô que fala bonito, mas ter um assistente de pesquisa que:

  1. Entende perguntas complexas e cheias de detalhes.
  2. Busca a verdade em documentos reais.
  3. Cita suas fontes (como um bom jornalista).
  4. Não inventa fatos.

É um passo gigante para criar IAs que podemos realmente confiar para nos ajudar a tomar decisões importantes no mundo real, seja na medicina, no direito ou no jornalismo.