TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

O artigo apresenta o TRUST-SQL, um framework que utiliza aprendizado por reforço multi-turno integrado a ferramentas para resolver o problema de Text-to-SQL em cenários de esquemas desconhecidos, permitindo que agentes autônomos identifiquem e verifiquem ativamente metadados relevantes sem depender de pré-carregamento de esquemas completos.

Ai Jian, Xiaoyun Zhang, Wanrou Du, Jingqing Ruan, Jiangbo Pei, Weipeng Zhang, Ke Zeng, Xunliang Cai

Publicado 2026-03-18
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa pedir um prato específico em um restaurante gigante, mas o cardápio tem milhares de páginas, está cheio de erros de digitação e as receitas mudam todos os dias.

A maioria dos sistemas de "Texto para SQL" (que transformam perguntas em comandos de banco de dados) funciona como um garçom que já tem o cardápio inteiro na mão antes de você chegar. Ele lê tudo, memoriza e tenta adivinhar o que você quer. Isso funciona bem em restaurantes pequenos, mas no mundo real (empresas com bancos de dados gigantes), esse cardápio é tão grande que o garçom se confunde, inventa pratos que não existem (alucinações) ou esquece ingredientes importantes.

O papel TRUST-SQL propõe uma nova abordagem: em vez de ter o cardápio inteiro na mesa, o garçom é treinado para explorar a cozinha ativamente.

Aqui está a explicação simplificada do que eles fizeram:

1. O Problema: O Garçom Cego vs. O Garçom Investigador

  • O Jeito Antigo (Hipótese de Esquema Completo): O garçom recebe uma pilha de 10.000 páginas de cardápio. Ele tenta ler tudo de uma vez. Como a memória dele é limitada, ele ignora detalhes, inventa ingredientes que nunca viu e erra o pedido.
  • O Jeito TRUST-SQL (Esquema Desconhecido): O garçom não tem o cardápio. Ele sabe que precisa pedir. Então, ele vai até a cozinha e pergunta: "O que vocês têm?". Ele verifica os ingredientes reais, confirma se o prato existe e só então monta o pedido. Ele não inventa nada; ele investiga.

2. A Solução: O Protocolo de 4 Fases (A Dança do Garçom)

Para evitar que o garçom se perca ou invente coisas, o TRUST-SQL criou um roteiro rígido de 4 passos que ele deve seguir, como se fosse uma coreografia:

  1. Explorar (Explore): O agente vai à cozinha e pergunta: "Quais pratos existem?". Ele verifica a lista real de tabelas e colunas.
  2. Propor (Propose): Antes de cozinhar, ele escreve num papel: "Ok, vou usar o Prato X e o Ingrediente Y que acabei de verificar". Isso é um ponto de verificação. Ele é obrigado a confirmar o que viu antes de prosseguir. Isso impede que ele invente ingredientes mágicos.
  3. Gerar (Generate): Agora que ele sabe o que tem, ele escreve o pedido (o comando SQL) baseado apenas no que foi verificado.
  4. Confirmar (Confirm): Ele entrega o pedido final.

3. O Segredo Mágico: "Dual-Track GRPO" (Treinamento em Duas Pistas)

Aqui está a parte mais inteligente da engenharia. Como ensinar um garçom a fazer tudo isso sem frustrá-lo?

Imagine que você está treinando um cachorro. Se ele puxa a coleira (explora) e depois morde o dono (gera o SQL errado), você não sabe se deve punir a puxada ou a mordida. O sistema antigo dava uma única nota final: "Você errou o pedido".

O TRUST-SQL usa uma técnica chamada Dual-Track GRPO (Duas Pistas):

  • Pista 1 (A Exploração): O agente recebe uma nota separada por ter encontrado os ingredientes certos na cozinha. Se ele achou o ingrediente certo, ele ganha pontos, mesmo que o pedido final tenha um erro de digitação.
  • Pista 2 (A Geração): O agente recebe uma nota separada por montar o pedido corretamente.

Isso resolve o problema de "quem merece o crédito?". O sistema aprende que encontrar a informação certa é tão importante quanto escrever o código certo. Eles são treinados juntos, mas com recompensas separadas, garantindo que o agente não pare de explorar só porque o SQL ficou difícil.

4. Os Resultados: Menos é Mais

O papel mostra que, mesmo sem ter o cardápio inteiro na mão (sem pré-carregar os dados), o sistema TRUST-SQL:

  • Acerta mais: Ele supera sistemas que tentam ler tudo de uma vez.
  • É mais rápido: Em vez de ler 10.000 páginas, ele lê apenas as 3 páginas que precisa.
  • Não alucina: Como ele é obrigado a verificar antes de propor, ele não inventa pratos que não existem.

Resumo em uma Metáfora Final

Pense no TRUST-SQL como um detetive particular.

  • O método antigo é como alguém que tenta adivinhar quem é o culpado olhando para uma foto de 1 milhão de pessoas ao mesmo tempo. Ele se perde e aponta para a pessoa errada.
  • O TRUST-SQL é o detetive que vai à cena do crime, pergunta aos vizinhos, verifica as impressões digitais e só então aponta para o culpado. Ele não sabe quem é o culpado no início, mas ele sabe como descobrir com precisão.

Conclusão: O TRUST-SQL ensina a Inteligência Artificial a não "adivinhar" o que existe no banco de dados, mas sim a investigar e verificar ativamente, tornando-a muito mais confiável em ambientes reais e complexos.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →