RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

O artigo apresenta o RAGPerf, um framework de benchmarking de ponta a ponta que modulariza e avalia o desempenho e a precisão de sistemas de Geração Aumentada por Recuperação (RAG), suportando diversos componentes, dados e métricas com sobrecarga negligenciável.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian Huang

Publicado Thu, 12 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (o LLM, ou Modelo de Linguagem) que sabe tudo sobre o mundo geral, mas não sabe nada sobre a sua empresa, seus documentos privados ou as notícias de ontem. Se você perguntar algo específico, ele vai "alucinar" ou inventar uma resposta.

Para resolver isso, criamos o RAG (Geração Aumentada por Recuperação). É como dar ao gênio uma biblioteca gigante e dizer: "Antes de responder, leia estes livros específicos sobre o assunto".

O problema é que montar essa "biblioteca mágica" é complexo. Você precisa cortar os livros em pedaços, transformar cada pedaço em um código matemático, guardar em um armário superorganizado, procurar o pedaço certo quando você pergunta, reorganizar a lista de melhores respostas e, finalmente, pedir ao gênio para escrever a resposta.

Se algo for lento ou errado em qualquer uma dessas etapas, o sistema todo fica lento ou a resposta fica ruim. E até agora, não existia um "teste de estresse" fácil para ver qual peça estava travando o carro.

É aqui que entra o RAGPerf.

O que é o RAGPerf?

Pense no RAGPerf como um mecânico de Fórmula 1 superinteligente para esses sistemas de IA.

Em vez de apenas olhar para a velocidade final do carro (se a resposta foi boa), o RAGPerf coloca sensores em cada peça do motor:

  1. O Motor de Busca: Quão rápido ele acha o documento?
  2. O Tradutor: Quão rápido ele transforma o texto em código matemático?
  3. O Organizador: Quão rápido ele guarda os dados no armário?
  4. O Gênio: Quão rápido ele escreve a resposta?

Como ele funciona? (Analogias do Dia a Dia)

1. O Simulador de Trânsito (Gerador de Carga)

Imagine que você quer testar um novo sistema de entrega de pizza. Você não pode testar apenas em um dia calmo. Você precisa simular uma sexta-feira à noite, com chuva, quando todos pedem pizza ao mesmo tempo.

O RAGPerf faz isso com dados. Ele cria cenários reais:

  • Leitura: Alguém perguntando coisas.
  • Escrita/Atualização: Alguém adicionando um novo documento ou corrigindo um erro antigo na biblioteca.
  • Padrões: Às vezes, todos querem saber sobre o mesmo tópico (como um vídeo viral); outras vezes, as perguntas são aleatórias.
    O RAGPerf simula esse caos para ver onde o sistema "quebra" ou fica lento.

2. O Desmontador de Blocos de Lego (Modularidade)

Muitos sistemas de IA são como um bloco de Lego colado com supercola: você não consegue tirar uma peça sem quebrar tudo.

O RAGPerf é feito de Lego solto. Ele separa o sistema em peças independentes:

  • Você pode trocar o "armário" (banco de dados) de um tipo para outro.
  • Você pode trocar o "tradutor" (modelo de embedding) por um mais rápido ou mais preciso.
  • Você pode trocar o "gênio" (LLM) por um mais inteligente ou mais barato.

Isso permite que você teste: "O que acontece se eu usar um armário mais rápido, mas um gênio mais lento?" ou "O que acontece se eu tiver menos memória no computador?".

3. O Relógio de Precisão (Métricas de Desempenho)

O RAGPerf não apenas diz "está lento". Ele diz onde está lento.

  • "O gargalo não é o gênio, é o tempo que o sistema leva para procurar o papel no armário."
  • "O sistema está usando 90% da memória do computador, mas o processador está quase dormindo."

Ele mede tudo: quanto tempo leva, quanto energia gasta, quanto memória usa e, o mais importante, se a resposta final é verdadeira e precisa.

Por que isso é importante?

Antes do RAGPerf, os desenvolvedores estavam "atirando para o escuro". Eles tentavam configurar o sistema e torcer para funcionar. Com o RAGPerf, é como ter um GPS de engenharia:

  • Se você tem pouco dinheiro (pouca memória), o RAGPerf diz: "Não use esse modelo gigante, use aquele menor, ou sua resposta vai demorar 10 segundos".
  • Se você precisa de respostas em tempo real, ele diz: "Troque esse tipo de armário de dados, o atual é muito lento para atualizações constantes".

Resumo da Ópera

O RAGPerf é uma ferramenta que permite que empresas e pesquisadores testem, comparem e melhorem seus sistemas de Inteligência Artificial de ponta a ponta. Ele transforma um processo complexo e cheio de "achismos" em uma ciência exata, garantindo que, quando você pedir uma informação ao seu assistente de IA, ele responda rápido, barato e com a verdade.

E o melhor de tudo? Eles tornaram esse "mecânico de F1" de código aberto, ou seja, qualquer pessoa pode baixar, usar e ajudar a melhorar.