DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa resolver um mistério complexo, como descobrir a relação entre o preço de ações de uma empresa, o histórico de saúde de seus executivos e as notícias sobre um novo produto. O problema é que essas informações estão espalhadas em centenas de documentos diferentes: alguns são relatórios financeiros, outros são notícias de jornal, e mais alguns são transcrições de reuniões.

Se você tentar ler tudo isso de uma vez só, seu cérebro (ou um computador comum) vai se perder. É aqui que entra o DocSage.

O Que é o DocSage?

O DocSage é como um detetive superorganizado que não apenas lê os documentos, mas cria um "mapa do tesouro" antes mesmo de começar a procurar as respostas.

A maioria dos sistemas de Inteligência Artificial atuais funciona como alguém que tenta encontrar uma agulha em um palheiro apenas cheirando o palheiro (busca por palavras-chave ou similaridade). Se a agulha estiver escondida de um jeito diferente, eles falham. O DocSage, por outro lado, primeiro constrói uma caixa de ferramentas personalizada para o mistério específico que você quer resolver.

Como Funciona? (A Analogia da Cozinha)

Para entender o DocSage, vamos imaginar que ele é um Chef de Cozinha tentando preparar um prato complexo usando ingredientes que estão espalhados em 100 despensas diferentes.

1. O Chef Descobre o Que Precisa (Descoberta de Esquema)

Antes de começar a cozinhar, o Chef não pega todos os ingredientes aleatoriamente. Ele olha para a receita (sua pergunta) e pergunta: "O que exatamente eu preciso?".

O que ele faz: Ele cria uma lista dinâmica e minimalista. Se você quer saber "Qual a relação entre o CEO e a queda nas vendas?", ele ignora receitas de bolo e foca apenas em "Nome do CEO", "Datas de Vendas" e "Relatórios Financeiros".
A mágica: Ele interage com os documentos como se estivesse conversando com eles. Se algo parece confuso, ele faz perguntas de volta para os documentos para esclarecer: "Espera, este 'CEO' é o mesmo daquele relatório de 2020?". Isso evita que ele se perca em informações inúteis.

2. O Chef Organiza os Ingredientes (Extração Estruturada)

Agora que ele sabe o que precisa, ele vai às despensas (os documentos) e não apenas joga os ingredientes numa pilha bagunçada.

O que ele faz: Ele transforma o texto bagunçado em tabelas organizadas (como planilhas do Excel). Ele coloca o "Nome" numa coluna, a "Data" em outra e o "Valor" em mais uma.
O Segredo: Ele é muito rigoroso. Se ele pega um número que parece errado (ex: "Idade: 180 anos"), ele para, verifica a lógica e corrige o erro antes de colocar na mesa. Isso garante que a "comida" (os dados) esteja limpa e confiável.

3. O Chef Cozinha a Resposta (Raciocínio Relacional)

Com tudo organizado em tabelas perfeitas, o Chef não precisa mais "adivinhar" ou "ler tudo de novo".

O que ele faz: Ele usa a lógica da tabela para conectar os pontos. É como usar uma fórmula no Excel: ele cruza a tabela de "Vendas" com a tabela de "CEO" e vê o padrão.
O Resultado: Como os dados já estão organizados, ele consegue fazer conexões complexas entre documentos diferentes sem se perder. Ele responde: "O CEO X assumiu em Janeiro, e logo depois as vendas caíram 20% em Março".

Por Que Isso é Tão Importante?

Os sistemas atuais de IA (como o RAG comum) são como alguém que tenta ler 500 páginas de livros ao mesmo tempo. Eles tendem a:

Esquecer detalhes importantes (perdem a agulha no palheiro).
Confundir personagens (acham que o CEO do documento A é o do documento B).
Se perder em textos longos (o "cérebro" da IA satura e para de prestar atenção).

O DocSage resolve isso transformando o caos de textos soltos em dados estruturados e lógicos.

O Resultado na Prática

Nos testes, o DocSage foi muito melhor do que os melhores modelos atuais:

Ele acertou 27% mais respostas complexas do que os concorrentes.
Funcionou tão bem em documentos curtos quanto em textos gigantes (de centenas de milhares de palavras), onde os outros sistemas falhavam miseravelmente.

Resumo Final

O DocSage é como trocar um caçador de agulhas (que fica procurando no escuro) por um arquiteto que primeiro desenha o plano da casa, organiza os materiais e só então constrói a resposta. Ele transforma a bagunça de documentos desconexos em uma história clara e lógica, garantindo que a resposta não seja apenas uma "chute", mas uma conclusão baseada em fatos organizados.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Questionamento de Múltiplos Documentos e Entidades (MDMEQA)

O trabalho aborda a tarefa de Questionamento de Múltiplos Documentos e Múltiplas Entidades (MDMEQA), onde a resposta a uma pergunta depende da conexão de lógica implícita entre entidades dispersas em vários documentos não estruturados.

Limitações das abordagens atuais:

LLMs de Longo Contexto: Sofrem com "diluição de atenção" (attention diffusion) e janelas de contexto limitadas, falhando em rastrear todas as relações entre entidades em segmentos de texto desconexos.
RAG (Geração Aumentada por Recuperação) Padrão: Baseia-se em similaridade vetorial de granularidade grosseira, o que frequentemente omite fatos cruciais necessários para o raciocínio entre documentos.
RAG Baseado em Grafos: Embora modele relações, tem dificuldade em integrar redes complexas e fragmentadas de forma eficiente à medida que o número de documentos aumenta, além de sofrer com a construção computacionalmente proibitiva de grafos.
Falta de Consciência de Esquema: A maioria dos métodos carece de uma representação estruturada explícita adaptada à consulta, resultando em cadeias de evidência desconexas e deduções de entidades imprecisas.

2. Metodologia: O Framework DocSage

O DocSage é um framework agentic (agente autônomo) de ponta a ponta projetado para transformar textos não estruturados em uma representação relacional dinâmica e específica para a consulta. Ele opera através de três módulos interdependentes:

A. Módulo de Descoberta Interativa de Esquema (Interactive Schema Discovery)

Objetivo: Inferir um esquema relacional mínimo e "juntável" ( $S_q$ ) que capture as entidades, atributos e relações essenciais para responder à consulta, sem depender de esquemas pré-definidos.
Algoritmo ASK (Active Schema Discovery via Knowledge-seeking Queries):
1. Hipótese Inicial: Gera um esquema inicial baseado na consulta e em uma amostra de documentos.
2. Análise de Consistência e Geração de Perguntas: O sistema identifica incertezas (conflitos de alinhamento de entidades, anomalias em distribuições de atributos, relações faltantes) e gera perguntas de esclarecimento ativas.
3. Iteração: Usa essas perguntas para buscar evidências direcionadas nos documentos e refinar o esquema iterativamente até a convergência.

B. Módulo de Extração Estruturada Consciente de Lógica (Logic-Aware Structured Extraction)

Objetivo: Preencher o esquema com tuplas extraídas dos documentos com alta fidelidade.
Mecanismo CLEAR (Cross-record Logic Enforcement for Accuracy Reinforcement):
- Nível A (Confiança): Usa adaptadores LoRA para calibrar a confiança das extrações individuais.
- Nível B (Consistência Lógica): Aplica restrições lógicas baseadas no esquema (ex: dependências funcionais, restrições temporais, integridade referencial de chaves estrangeiras).
- Correção: Se uma extração tiver baixa confiança ou violar uma regra lógica, o sistema aciona um fluxo de correção que pode envolver reextração por LLMs mais potentes ou busca de evidência decisiva para resolver conflitos.

C. Módulo de Raciocínio Relacional Guiado por Esquema (Schema-Guided Relational Reasoning)

Objetivo: Executar o raciocínio sobre a base de dados estruturada resultante.
Funcionamento:
- O módulo de raciocínio compila a consulta natural em uma consulta SQL otimizada.
- A presença explícita do esquema permite operações determinísticas de "join" (junção) e agregação, eliminando a ambiguidade do processamento de texto livre.
- O sistema rastreia a proveniência de cada linha de resultado de volta aos documentos originais, garantindo a verificabilidade da resposta final.

3. Contribuições Principais

Paradigma Agentic Estruturado: Propõe um fluxo de trabalho que descobre esquemas dinamicamente, estrutura dados não estruturados e realiza raciocínio com garantias de erro, superando a abordagem passiva de RAG.
Localização Precisa de Fatos: O uso de indexação baseada em SQL e tabelas relacionais permite localizar fatos críticos sem a omissão comum em métodos vetoriais.
Junção de Entidades entre Documentos: As tabelas relacionais suportam nativamente a junção de entidades de diferentes documentos, simplificando a construção de cadeias de evidência.
Mitigação da Diluição de Atenção: Ao transformar dados fragmentados em representações estruturadas, reduz-se a carga cognitiva sobre o LLM, melhorando o raciocínio em grandes coleções de documentos.

4. Resultados Experimentais

O DocSage foi avaliado em dois benchmarks desafiadores de MDMEQA: MEBench e Loong.

MEBench (Foco em Múltiplas Entidades):
- O DocSage alcançou uma acurácia global de 89,2%, superando o melhor baseline (GPT-4o + RAG) em 27,2 pontos percentuais.
- Demonstrou robustez excepcional à densidade de entidades: enquanto outros modelos caíram drasticamente de desempenho ao passar de 0-10 entidades para >100 entidades, o DocSage manteve uma queda mínima (de 91,8% para 87,9%).
Loong (Foco em Contextos Longos e Raciocínio Complexo):
- Obteve a maior taxa de "Resposta Perfeita" (Perfect Rate) entre todos os métodos, superando o GPT-4o em mais de duas vezes (0,53 vs 0,26).
- Performou superiormente em tarefas de localização de informações (Spotlight Locating) e cadeias de raciocínio (Chain of Reasoning).
- Mantém desempenho estável mesmo em documentos extremamente longos (200k-250k tokens), onde outros modelos sofrem degradação severa.

5. Significado e Impacto

O trabalho valida a hipótese de que a indução de estrutura dinâmica combinada com um fluxo de trabalho agentic é uma solução viável e superior para os desafios do MDMEQA.

Superação de Limitações: Resolve os problemas de fragmentação de dados e escassez de esquemas em documentos não estruturados.
Aplicabilidade Prática: Oferece uma abordagem robusta para domínios de alto risco (como pesquisa clínica, análise financeira e prática legal), onde a precisão, a rastreabilidade das evidências e a capacidade de sintetizar informações de múltiplas fontes são críticas.
Mudança de Paradigma: Sugere que, para raciocínio complexo em grandes volumes de dados, a transformação de texto livre em representações estruturadas (tabelas/SQL) é mais eficaz do que apenas aumentar o tamanho do contexto ou melhorar a recuperação vetorial.

Em resumo, o DocSage representa um avanço significativo na capacidade de IA de realizar raciocínio lógico complexo e preciso sobre grandes conjuntos de documentos dispersos, superando as limitações atuais dos LLMs e sistemas RAG tradicionais.