SpotIt+: Verification-based Text-to-SQL Evaluation with Database Constraints

O artigo apresenta o SpotIt+, uma ferramenta de código aberto que avalia sistemas Text-to-SQL verificando a equivalência de consultas através da geração de instâncias de banco de dados diferenciadas, utilizando um pipeline inovador que combina mineração de regras e validação por LLMs para garantir que as discrepâncias encontradas reflitam restrições práticas e relevantes.

Rocky Klopfenstein, Yang He, Andrew Tremante, Yuepeng Wang, Nina Narodytska, Haoze Wu

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um professor de culinária e seus alunos (os sistemas de Inteligência Artificial) estão tentando escrever receitas (comandos SQL) baseadas nas suas instruções em linguagem natural ("Faça um bolo de chocolate").

O problema é: como saber se a receita do aluno está realmente correta?

O Problema: A Prova de Fogo "Padrão"

Até agora, a maneira comum de avaliar esses alunos era simples: você pegava a receita deles e a receita "correta" (a do professor) e as testava com apenas um ingrediente específico que você tinha na despensa (o banco de dados de teste).

  • O Cenário: Se ambos os bolos saíram iguais com aquele único ingrediente, o aluno passa.
  • O defeito: E se o aluno usou "açúcar" quando deveria ter usado "adoçante", mas, por coincidência, naquele único teste, o sabor ficou idêntico? O sistema acharia que o aluno acertou, mas a receita dele está errada e falharia em qualquer outra situação. É como se o aluno tivesse sorte, não habilidade.

A Solução: O "SpotIt+" (O Detetive de Receitas)

Os autores deste paper criaram uma ferramenta chamada SpotIt+. Em vez de apenas testar com um ingrediente, o SpotIt+ é como um detetive obcecado por cenários hipotéticos.

O trabalho dele é: "Vou tentar inventar qualquer combinação de ingredientes possível que faça a receita do aluno dar um resultado diferente da receita correta."

Se o detetive encontrar uma situação onde os resultados são diferentes, ele grita: "Eureca! A receita está errada!" e mostra exatamente onde está o erro. Isso é chamado de verificação baseada em evidências.

O Grande Desafio: "E se a realidade não for assim?"

Aqui entra a parte mais inteligente do SpotIt+.

Quando o detetive tenta inventar cenários, ele pode criar coisas impossíveis.

  • Exemplo: Ele pode inventar um cenário onde o "preço de um carro" é negativo (-R$ 50.000) ou onde a "idade de uma pessoa" é 500 anos.
  • Se o sistema achar que a receita está errada apenas porque o carro tem preço negativo, isso não é um problema real. É um erro de "lógica de ficção científica", não um erro de programação.

Isso é o que os autores chamam de contradições irreais.

A Magia do SpotIt+: O "Minerador de Regras" + O "Consultor IA"

Para evitar esses cenários de ficção, o SpotIt+ tem um processo de duas etapas:

  1. O Minerador de Regras (Olho Clínico): Ele olha para o banco de dados original (a despensa real) e descobre padrões.

    • "Ah, notei que o preço de carros nunca é negativo."
    • "Notei que as cores de carros só são 'Vermelho', 'Azul' ou 'Preto', nunca 'Roxo Neon'."
    • "Notei que a idade das pessoas está sempre entre 18 e 90."
  2. O Consultor IA (O Juiz de Sabedoria): Aqui entra a Inteligência Artificial (LLM). O minerador pode ser um pouco "bobo" e achar que, porque no teste só havia carros vermelhos, todos os carros do mundo são vermelhos.

    • O SpotIt+ pergunta para a IA: "Ei, essa regra de 'todos os carros são vermelhos' faz sentido no mundo real, ou é só porque o teste foi pequeno?"
    • A IA diz: "Não, isso é bobagem. Vamos relaxar essa regra para permitir outras cores, mas manter a regra de que o preço não pode ser negativo."

O Resultado: Contradições que Importam

Com essa combinação, o SpotIt+ gera contraexemplos realistas.

  • Sem o SpotIt+ (Método Antigo): "Sua receita está errada porque se o carro tiver preço negativo, o bolo fica azedo." (Irreal, não ajuda ninguém).
  • Com o SpotIt+ (Novo Método): "Sua receita está errada porque, se o carro for Azul (que é uma cor válida) e tiver R$ 50.000 (preço válido), o bolo fica salgado." (Realista, mostra um erro real de lógica).

Por que isso é importante?

O paper testou essa ferramenta em um conjunto de dados famoso chamado BIRD (que tem perguntas complexas sobre saúde, educação, etc.).

  • Eles viram que o método antigo (testar apenas com os dados fixos) deixava passar muitos erros.
  • O SpotIt+ encontrou muitos mais erros que o método antigo ignorava.
  • E o melhor: os erros que ele encontrou eram úteis e realistas, ajudando os desenvolvedores a corrigir seus sistemas de IA de verdade, em vez de apenas corrigir bugs de "ficção".

Resumo em uma frase

O SpotIt+ é um inspetor de qualidade superinteligente que não só verifica se uma receita funciona, mas usa a experiência do mundo real (regras do banco de dados) para garantir que, se ela falhar, seja em uma situação que realmente pode acontecer, e não em um sonho maluco.