SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa responder a uma pergunta muito difícil, como: "Quais foram os riscos financeiros e as descobertas científicas da empresa X nos últimos 10 anos?"

Para responder a isso, você não tem apenas um livro, mas uma biblioteca inteira com centenas de relatórios, artigos e documentos.

Aqui está a explicação do SPD-RAG (o sistema proposto no artigo) usando uma analogia simples:

O Problema: A Biblioteca Caótica

Imagine que você tem um super-inteligente (uma Inteligência Artificial muito avançada) que consegue ler tudo de uma vez.

O problema: Se você jogar todos os 100 documentos de uma vez na mesa desse super-inteligente, ele fica sobrecarregado. É como tentar ler 500 páginas de um livro em 1 segundo. Ele começa a esquecer detalhes, confunde informações e acaba dando uma resposta genérica ou errada.
A solução antiga (RAG Normal): Você pede para o super-inteligente escolher apenas as 5 páginas que parecem mais importantes. O problema é que a resposta certa pode estar escondida na página 499, que ele nem olhou.

A Solução: O Sistema SPD-RAG (A Equipe de Especialistas)

Os autores criaram um novo jeito de organizar o trabalho, chamado SPD-RAG. Em vez de jogar tudo na mesa de uma só vez, eles criaram uma equipe organizada.

Pense no sistema como uma grande empresa de investigação:

O Chefe (O Coordenador):
Ele recebe a sua pergunta difícil. Em vez de tentar responder ele mesmo, ele divide o trabalho. Ele diz: "Ok, temos 50 documentos. Vamos criar uma equipe de investigadores, e cada um vai ficar responsável por apenas um documento."
Os Investigadores (Os Sub-agentes):
Cada documento recebe seu próprio "detetive".
- O Detetive do Documento A só olha o Documento A.
- O Detetive do Documento B só olha o Documento B.
- Eles trabalham todos ao mesmo tempo (em paralelo).
- Como cada um só tem um documento para ler, eles podem ler com calma, encontrar detalhes minúsculos e não se confundem com o barulho dos outros documentos. Eles são especialistas naquele único papel.
O Relator Final (A Camada de Síntese):
Depois que todos os detetives terminam, eles enviam seus pequenos relatórios para o Chefe.
- O Chefe pega todos esses pequenos relatórios e os junta.
- Ele usa uma técnica inteligente para agrupar informações parecidas (como juntar todas as partes que falam sobre "lucro" e todas as que falam sobre "riscos").
- Com todas as peças do quebra-cabeça reunidas, ele escreve a resposta final completa e precisa.

Por que isso é melhor? (A Analogia do Quebra-Cabeça)

RAG Normal: É como tentar montar um quebra-cabeça de 1.000 peças olhando apenas para 5 peças aleatórias. Você nunca vai ver a imagem completa.
Long-Context (O Super-inteligente sozinho): É como tentar montar o quebra-cabeça inteiro de uma vez, mas com as mãos muito trêmulas. Você vê todas as peças, mas acaba misturando as cores e errando a montagem.
SPD-RAG: É como ter 1.000 pessoas montando 1.000 peças diferentes, cada uma com calma, e depois juntando tudo perfeitamente. Ninguém se perde, ninguém esquece nada.

Os Resultados (O que o artigo descobriu)

Os autores testaram isso em um desafio difícil (o benchmark "Loong") com documentos de finanças e artigos científicos:

Qualidade: O sistema novo (SPD-RAG) acertou muito mais do que os sistemas antigos. Enquanto os antigos erravam feio em documentos complexos (especialmente artigos científicos), o novo sistema conseguiu encontrar as respostas escondidas.
Custo: Você pode pensar: "Mas contratar 50 detetives deve ser caro!". Na verdade, não é. Como cada detetive trabalha rápido e em um documento pequeno, eles podem ser "mais baratos" (usando modelos de IA mais simples e rápidos). O sistema final ficou 3 vezes mais barato do que tentar jogar tudo de uma vez no modelo mais caro, e ainda assim foi muito mais inteligente.

Resumo em uma frase

O SPD-RAG é como transformar um problema gigante em centenas de problemas pequenos, resolver cada um deles com atenção total e depois juntar as soluções, garantindo que nenhuma informação importante seja perdida no meio do caminho.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: SPD-RAG

1. O Problema

A resposta a consultas complexas do mundo real frequentemente exige a síntese de fatos dispersos em vastos corpora de documentos. Os sistemas atuais enfrentam dois gargalos principais:

RAG (Geração Aumentada por Recuperação) Padrão: Pipelines tradicionais recuperam um número fixo de documentos ( $K$ ) e processam tudo em uma única janela de contexto. Isso falha quando a resposta depende de informações distribuídas em muitos documentos, pois evidências fora do top- $K$ são descartadas.
LLMs de Longo Contexto: Embora modelos com janelas de contexto massivas (ex: 128K–2M tokens) existam, evidências empíricas mostram que a qualidade do raciocínio degrada significativamente à medida que o tamanho do contexto aumenta ("perda no meio" ou lost in the middle).

O desafio é escalar o raciocínio sobre centenas de milhares de tokens e múltiplos documentos sem perder a cobertura de evidências ou a qualidade da resposta.

2. Metodologia: SPD-RAG

O SPD-RAG (Sub-Agent por Documento) propõe uma arquitetura multi-agente hierárquica que decompõe o problema ao longo do eixo do documento, em vez do eixo da tarefa. O sistema opera em três camadas principais:

Camada de Coordenação:
- Um agente coordenador recebe a consulta do usuário e o corpus.
- Ele decompõe a consulta em um Conjunto de Instruções Compartilhadas (uma lista de tarefas atômicas para extração de dados) e Diretrizes de Síntese (como estruturar a resposta final).
- O objetivo é garantir que cada documento seja analisado em profundidade para não perder evidências críticas.
Camada de Recuperação Paralela:
- Cada documento no corpus recebe um sub-agente dedicado ( $\alpha_i$ ).
- Isolamento: Cada sub-agente opera em um "universo de recuperação isolado", restringindo-se estritamente ao seu documento atribuído. Isso evita a distração de chunks de outros documentos.
- Execução: Os agentes operam em paralelo, realizando um loop iterativo de "recuperar e raciocinar". Eles realizam buscas vetoriais densas (usando embeddings Cohere) e reclassificação dentro do documento, com um limite de chamadas de busca (ex: 5 chamadas) para garantir cobertura exaustiva.
- Saída: Cada agente gera um relatório de achados ( $s_i$ ) e uma pontuação de confiança/relevância ( $r_i$ ).
Camada de Síntese:
- Um modelo de síntese agrega os achados de todos os documentos.
- Fusão Recursiva (Map-Reduce): Para lidar com corpora massivos que excedem o limite de contexto, o sistema utiliza um processo de mesclagem recursiva baseado em similaridade.
- Os relatórios são agrupados por similaridade semântica (usando Agglomerative Clustering) e mesclados em lotes que respeitam um orçamento de tokens (ex: 750k tokens). Esse processo é repetido recursivamente até que todos os achados sejam sintetizados em uma única resposta final.

3. Contribuições Principais

Arquitetura Híbrida: Propõe o SPD-RAG, que combina agentes de RAG por documento com uma camada de síntese centralizada, permitindo especialização por documento e execução paralela.
Superação de Limitações de Contexto: Demonstra que a especialização em nível de documento, seguida por fusão centralizada, supera tanto a recuperação incompleta do RAG padrão quanto a degradação de raciocínio de LLMs de longo contexto.
Eficiência de Custo-Qualidade: O sistema atinge mais de 85% da qualidade de uma linha de base de contexto completo (Oracle), mas com apenas 38% do custo de API.
Avaliação Rigorosa: Validação no benchmark Loong (EMNLP 2024), focado em QA multi-documento de longo contexto (relatórios financeiros e artigos acadêmicos).

4. Resultados Experimentais

Os testes foram realizados no benchmark Loong (102 instâncias, contextos de 10K a 250K+ tokens), comparando o SPD-RAG com RAG Normal, Agentic RAG e uma linha de base de contexto completo (Oracle).

Desempenho Geral:
- SPD-RAG: Pontuação Média (Avg Score) de 58.1.
- RAG Normal: 33.0.
- Agentic RAG: 32.8.
- Linha de Base (Contexto Completo): 68.0.
- O SPD-RAG supera os baselines RAG em aproximadamente 25 pontos (76% de ganho relativo).
Taxa de Resposta Perfeita (Perfect Rate):
- SPD-RAG alcançou 18.6%, mais que o dobro do Agentic RAG (8.8%), indicando uma captura mais frequente do conjunto completo de fatos necessários.
Análise por Domínio e Tarefa:
- Artigos Acadêmicos: O RAG padrão e Agentic RAG falharam completamente (0% de taxa de resposta perfeita e pontuações de ~15-16). O SPD-RAG recuperou drasticamente o desempenho (60.0 de pontuação média), provando sua eficácia em documentos técnicos densos.
- Tarefas Complexas: Os maiores ganhos ocorreram em tarefas de Agrupamento (Clustering) e Cadeia de Raciocínio (Chain of Reasoning), que exigem síntese exaustiva de múltiplos documentos.
- Custo: O SPD-RAG custou $0.103 por consulta, comparado a $0.273 da linha de base de contexto completo. Isso representa uma eficiência de custo-qualidade 2,25 vezes maior que a linha de base completa.

5. Significado e Conclusão

O SPD-RAG demonstra que, para consultas de busca de informação complexas em grandes corpora, como a informação é processada é mais crucial do que simplesmente aumentar o tamanho do contexto de entrada de um único modelo.

Estratégia Superior: A abordagem de garantir que cada documento receba atenção exaustiva e dedicada (via sub-agentes) é mais eficaz, eficiente em custos e escalável do que tentar processar tudo em uma única passagem.
Escalabilidade: A arquitetura de fusão recursiva permite que o sistema escale para corpora com milhares de documentos, onde a síntese direta seria impossível devido aos limites de contexto.
Implicação Prática: O sistema oferece um caminho viável para aplicações empresariais que exigem análise profunda de grandes volumes de documentos (financeiros, legais, científicos) sem o custo proibitivo de usar modelos de ponta para todo o contexto de uma só vez.

Em suma, o SPD-RAG resolve o dilema entre cobertura de evidências e capacidade de raciocínio, estabelecendo um novo padrão para QA multi-documento de longo contexto.

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

O Problema: A Biblioteca Caótica

A Solução: O Sistema SPD-RAG (A Equipe de Especialistas)

Por que isso é melhor? (A Analogia do Quebra-Cabeça)

Os Resultados (O que o artigo descobriu)

Resumo em uma frase

Resumo Técnico: SPD-RAG

1. O Problema

2. Metodologia: SPD-RAG

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance