Deep Tabular Research via Continual Experience-Driven Execution

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma planilha de Excel gigante, bagunçada e cheia de erros. Ela não segue regras normais: tem células mescladas, cabeçalhos que ficam tanto na horizontal quanto na vertical, e dados que faltam. Agora, imagine que você precisa fazer uma análise complexa com esses dados, como "compare o crescimento de vendas por departamento nos últimos 5 anos, mas só se a taxa de erro for menor que 10%".

A maioria dos "cérebros de IA" (chamados de Modelos de Linguagem Grandes) tenta ler essa planilha como se fosse um livro de texto. Eles leem linha por linha, mas se perdem na bagunça, cometem erros de cálculo ou esquecem o que leram antes.

Este paper apresenta uma nova abordagem chamada DTR (Deep Tabular Research), que é como transformar a IA em um detetive experiente com um caderno de anotações, em vez de apenas um leitor rápido.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A Planilha "Caos"

Pense em uma planilha real de uma empresa. Ela é como um mapa antigo e desenhado à mão.

O desafio: As linhas e colunas não são retas. Alguns títulos cobrem várias linhas. Alguns dados estão escondidos.
O erro comum: A IA tenta adivinhar a resposta lendo o texto. É como tentar dirigir um carro olhando apenas para o mapa no banco de passageiro, sem olhar para a estrada. Ela se perde.

2. A Solução: O Agente "Detetive" (DTR)

Em vez de apenas ler, o sistema DTR age como um detetive que usa ferramentas e aprende com seus erros. Ele funciona em três etapas principais:

A. O Mapa Mental (Compreensão da Estrutura)

Antes de fazer qualquer coisa, o detetive olha para a planilha e desenha um mapa mental dela.

Ele entende que "Vendas" na coluna A e "2023" na linha 5 não são apenas palavras soltas; eles estão conectados.
Ele transforma essa bagunça visual em uma estrutura lógica (um gráfico de conexões), como se organizasse os blocos de um quebra-cabeça antes de começar a montar.

B. O Planejamento com "Bússola de Esperança" (Seleção de Caminhos)

O detetive precisa decidir o que fazer: "Devo filtrar os dados primeiro? Ou devo somar tudo?".

A analogia: Imagine que você está em uma floresta com 100 caminhos. A IA comum tenta todos de uma vez ou escolhe o primeiro que vê.
O DTR: Ele usa uma "Bússola de Esperança". Ele olha para os caminhos que já tentou antes. Se um caminho levou a um erro no passado, a bússola avisa: "Cuidado, esse caminho é perigoso". Se um caminho funcionou bem antes, a bússola brilha mais forte.
Ele escolhe o caminho que tem a maior chance de sucesso, equilibrando entre tentar algo novo (explorar) e usar o que já sabe que funciona (explorar).

C. O Caderno de Anotações Duplo (Memória Siamesa)

Esta é a parte mais genial. O sistema tem dois tipos de memória, como se tivesse um caderno de campo e um livro de regras:

O Caderno de Campo (Feedback Parametrizado): "Hoje, quando tentei somar sem limpar os dados, o programa deu erro." Isso é um dado específico para este problema.
O Livro de Regras (Experiência Abstrata): "Sempre que vejo uma tabela com cabeçalhos duplos, preciso limpar os dados antes de somar." Isso é uma lição geral que ele aprendeu e pode usar em qualquer problema futuro.

Isso permite que a IA aprenda continuamente. Se ela erra hoje, ela não apenas tenta de novo; ela atualiza seu livro de regras para não errar mais amanhã.

3. O Resultado: Por que isso é melhor?

Sem "Alucinações": Como o sistema executa código real (como um programador faria) e verifica os resultados a cada passo, ele não inventa números.
Recuperação de Erros: Se ele erra no meio do caminho, ele olha para o caderno de anotações, entende o erro, corrige o plano e continua. Não é preciso começar tudo do zero.
Eficiência: Em vez de tentar milhares de caminhos aleatórios (o que gasta muito tempo e dinheiro), ele foca nos caminhos mais promissores, como um detetive experiente que sabe exatamente onde procurar.

Resumo em uma frase

O Deep Tabular Research transforma a IA de um "leitor de livros" que se perde em planilhas bagunçadas em um "engenheiro de dados inteligente" que desenha mapas, usa ferramentas, aprende com cada erro e melhora sua estratégia a cada nova tarefa, garantindo respostas precisas mesmo em cenários complexos.

É como a diferença entre alguém que tenta adivinhar a receita de um bolo lendo os ingredientes de cabeça, e um chef que mede, mistura, prova, ajusta o sal e anota a receita perfeita para a próxima vez.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Pesquisa Tabular Profunda (DTR)

O artigo identifica uma lacuna crítica nas capacidades atuais dos Modelos de Linguagem Grande (LLMs) ao lidar com tabelas não estruturadas e complexas do mundo real (como planilhas do Excel).

Limitações Atuais: A maioria das abordagens existentes de Questionamento sobre Tabelas (TableQA) assume tabelas bem estruturadas, com cabeçalhos planos e layouts canônicos. Elas falham ao enfrentar:
- Cabeçalhos hierárquicos e bidirecionais (linhas e colunas).
- Células mescladas e valores ausentes ou implicitamente definidos.
- Tarefas analíticas de longo horizonte (long-horizon), que exigem múltiplos saltos de raciocínio, verificações factuais, cálculos numéricos e agregações em diferentes regiões da tabela.
Definição do Problema (DTR): Os autores formalizam o desafio como Deep Tabular Research (DTR). Diferente do TableQA tradicional (que é muitas vezes uma busca direta), o DTR exige um processo de raciocínio coordenado que envolve aquisição de dados, computação e síntese analítica iterativa.
Desafios Específicos:
1. Espaço de Busca Proibitivo: Traduzir intenções analíticas de alto nível em código executável (ex: pandas) sobre tabelas irregulares gera um espaço de caminhos de execução massivo e ambíguo.
2. Propagação de Erros: Em execuções longas, erros iniciais propagam-se, e não há mecanismos eficazes para aprender com falhas passadas para guiar decisões futuras.

2. Metodologia: Framework Agente em Loop Fechado

Os autores propõem um framework agente inovador que trata o raciocínio tabular como um processo de tomada de decisão em loop fechado, impulsionado pela experiência de execução. A abordagem desacopla o planejamento estratégico de alto nível da execução de baixo nível.

O framework consiste em três componentes principais:

A. Mapeamento de Operações Guiado por Consulta e Modelagem Estrutural

Compreensão da Tabela: O sistema extrai metadados e constrói um Grafo Meta Hierárquico ( $G_T$ ) que captura a estrutura bidirecional da tabela (cabeçalhos de linha e coluna, relações de contenção). Isso transforma a tabela não estruturada em uma representação semântica estruturada.
Decomposição de Consultas: Um agente LLM decompõe a consulta natural em uma "Banco de Operações Semente" (ex: CLEAN, FILTER, GROUP, AGG, JOIN).
Mapa de Operações: Cria-se um mapa que organiza essas operações em caminhos sequenciais viáveis, respeitando restrições lógicas e semânticas (ex: agrupar antes de filtrar, dependendo do contexto).

B. Planejamento de Caminhos com Seleção Consciente de Expectativa

Em vez de executar todos os caminhos ou escolher aleatoriamente, o sistema utiliza uma política de seleção baseada em Expectativa Consciente (Expectation-Aware).
Fórmula de Pontuação: Para cada caminho candidato $\pi$ $π$ , calcula-se uma pontuação $E(\pi)$ $E (π)$ que equilibra exploração e exploração:
$E(\pi) = \hat{R}(\pi) + \alpha \cdot P(\pi) \sqrt{\frac{\log \sum N(\pi')}{1 + N(\pi)}}$
- $\hat{R}(\pi)$ : Retorno esperado histórico (exploração).
- Termo de incerteza: Penaliza caminhos já muito explorados e favorece novos caminhos plausíveis (exploração).
Isso permite que o agente priorize trajetórias promissoras sem simulação exaustiva.

C. Memória Estruturada Siamesa e Reflexão Contínua

O sistema mantém uma memória siamesa que registra dois tipos de feedback para refinar o planejamento:
1. Feedback Parametrizado: Sinais concretos de execução (sucesso/falha, tempo de execução, consistência de formato de saída).
2. Experiência Abstrata: Padrões semânticos de alto nível (ex: "agrupar antes de validar causa erro; insira uma verificação antes").
Reflexão e Adaptação: Após cada execução, o sistema atualiza as expectativas dos caminhos. Se um caminho falha, o agente pode replanejar dinamicamente, inserindo operações de limpeza ou validação baseadas na experiência acumulada.
Execução Iterativa: O agente alterna entre estados de [THINK] (raciocínio/validação) e [CODE] (execução), garantindo que o código gerado seja validado antes de prosseguir.

3. Contribuições Chave

Formalização da Tarefa DTR: Definição clara de um novo paradigma de raciocínio analítico de longo horizonte sobre tabelas não canônicas.
Framework Agente de Loop Fechado: Uma arquitetura que separa o planejamento macro da execução micro, utilizando feedback contínuo para corrigir erros e refinar estratégias.
Otimização Impulsionada por Experiência: Mecanismo de seleção de caminhos baseado em expectativas e uma memória siamesa que permite ao agente aprender com falhas passadas, mitigando a propagação de erros.
Validação Empírica: Demonstração de superioridade em benchmarks desafiadores, provando que a separação entre planejamento e execução é crucial para tarefas complexas.

4. Resultados Experimentais

Os autores avaliaram o DTR em dois benchmarks principais: DTR-Bench (focado em análise analítica profunda) e RealHitBench (tabelas não estruturadas do mundo real).

Desempenho Superior: O DTR superou consistentemente baselines fortes, incluindo modelos de linguagem puros (DeepSeek-V3, GPT-4o) e frameworks de agentes existentes (ST-Raptor, TreeThinker, Code Loop).
- No DTR-Bench, alcançou a melhor pontuação em precisão, profundidade de análise, viabilidade e estética.
- No RealHitBench, demonstrou alta taxa de acerto (Pass@1) em tarefas de geração de relatórios e visualização.
Eficiência:
- O DTR atingiu melhores resultados com menos chamadas ao LLM (média de 4,78 chamadas) em comparação com o Code Loop (8,8 chamadas), que tendia a entrar em ciclos de reexecução sem direção estratégica.
- O framework evita o "espaço de busca proibitivo" ao focar em caminhos de alto valor esperado, em vez de tentar todas as combinações.
Estabilidade: A taxa de erro de código foi significativamente reduzida (de 42,3% para 28,4% em comparação com geração direta) graças à estratégia de [THINK] + [CODE] e à validação intermediária.

5. Significado e Impacto

Mudança de Paradigma: O trabalho sugere que para raciocínio complexo sobre dados estruturados/semi-estruturados, a simples geração de texto ou código "de uma só vez" é insuficiente. A execução guiada por experiência e o aprendizado contínuo são fundamentais.
Aplicabilidade Prática: O framework é projetado para cenários reais onde dados são desorganizados (planilhas empresariais, relatórios financeiros), permitindo automação mais robusta em áreas como inteligência de negócios, análise científica e relatórios públicos.
Robustez: Ao desacoplar o planejamento estratégico da execução de código, o sistema é mais resiliente a ambiguidades estruturais e capaz de recuperar-se de erros intermediários, algo que os métodos atuais de "Chain-of-Thought" puro frequentemente não conseguem fazer.

Em resumo, o artigo apresenta o DTR como uma solução robusta para o desafio de raciocinar sobre tabelas complexas, combinando a capacidade de planejamento de LLMs com a precisão da execução de código e a adaptabilidade de um sistema de aprendizado por reforço baseado em experiência.