SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification

Este trabajo presenta SpotIt, un nuevo pipeline de evaluación para Text-to-SQL que utiliza verificación de equivalencia formal para identificar diferencias entre consultas generadas y de referencia que los métodos basados en pruebas tradicionales pasan por alto.

Rocky Klopfenstein, Yang He, Andrew Tremante, Yuepeng Wang, Nina Narodytska, Haoze Wu

Publicado 2026-03-05
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que el mundo de las bases de datos es como una biblioteca gigante y desordenada. La gente quiere pedir libros (información) usando un lenguaje natural, como si estuviera hablando con un bibliotecario: "¿Me puedes decir quién es el paciente más joven con una enfermedad rara?".

El problema es que los bibliotecarios (los sistemas de Inteligencia Artificial) no siempre hablan el mismo idioma que la biblioteca. Tienen que traducir esa pregunta humana a un código muy estricto llamado SQL (el idioma de las bases de datos).

Hasta ahora, para saber si el bibliotecario (la IA) lo hizo bien, usábamos un método muy simple: la prueba del "mismo resultado".

El problema del método antiguo (La prueba de la foto)

Imagina que le das a dos bibliotecarios diferentes la misma pregunta: "¿Quién es el paciente más joven?".

  • Bibliotecario A busca en el registro y encuentra al "Paciente Juan".
  • Bibliotecario B busca en el registro y también encuentra al "Paciente Juan".

Como ambos dieron el mismo nombre, el sistema dice: "¡Perfecto! Ambos acertaron".

Pero aquí está el truco: ¿Y si el registro que usaron para la prueba solo tenía a Juan? ¿Y si en la vida real, el Bibliotecario B usó una lógica equivocada que, por pura suerte, funcionó solo porque el registro de prueba era pequeño y específico?

El método antiguo es como evaluar a un conductor de carreras solo porque logró estacionar el coche en un espacio vacío. No sabemos si sabe conducir en una tormenta o en un tráfico denso. Solo sabemos que en esa foto específica, el coche estaba bien.

La solución: SPOTIT (El detective de escenarios)

Los autores de este paper crearon SPOTIT. En lugar de confiar en una sola foto (la base de datos de prueba), SPOTIT actúa como un detective obsesivo o un abogado del diablo.

Su trabajo es:

  1. Tomar la pregunta del Bibliotecario A (la IA) y la del Bibliotecario B (la respuesta "correcta" hecha por humanos).
  2. Preguntar: "¿Existe algún escenario, algún registro de pacientes, en el que estos dos bibliotecarios den respuestas diferentes?"
  3. Si el detective encuentra incluso un solo caso donde las respuestas divergen, ¡Bingo! SPOTIT descubre que la IA estaba equivocada, aunque en la prueba original pareciera correcta.

¿Qué descubrieron? (Las sorpresas)

Cuando aplicaron este nuevo método "detectivesco" a 10 de los mejores sistemas de IA actuales, les pasó algo muy interesante:

  1. La IA estaba peor de lo que pensábamos: Muchos sistemas que parecían tener un 70% de éxito, en realidad solo tenían un 55%. El método antiguo les estaba dando "puntos extra" injustos por pura suerte.
  2. El "correcto" a veces estaba equivocado: Lo más sorprendente fue que, en muchos casos, la IA tenía razón y la respuesta "oficial" (la hecha por humanos) estaba mal.
    • Analogía: Imagina que el bibliotecario jefe (humano) escribió mal la regla en el libro de instrucciones. La IA, al intentar seguir la lógica, hizo algo diferente. El método antiguo dijo: "La IA falló porque no siguió la regla mal escrita". SPOTIT dijo: "Espera, la regla del jefe es confusa o incorrecta".
  3. Las preguntas eran ambiguas: A veces, la pregunta humana era tan vaga que podía tener dos respuestas válidas. El método antiguo castigaba a la IA por elegir una de las dos, mientras que SPOTIT mostraba que ambas eran lógicas.

En resumen

Este paper nos dice que confiar solo en ejemplos fijos para evaluar la Inteligencia Artificial es peligroso. Es como si evaluáramos a un chef solo porque sabe hacer un pastel perfecto cuando usa harina de una marca específica, pero no sabemos si sabe cocinar con otros ingredientes.

SPOTIT es como un simulador de cocina que prueba al chef con miles de combinaciones de ingredientes diferentes para asegurarse de que realmente sabe cocinar, no solo que tiene suerte con un ingrediente específico. Además, nos ayudó a darnos cuenta de que a veces, los libros de recetas (las bases de datos de prueba) tienen errores que nadie había notado.

Es un paso gigante para hacer que la tecnología que habla nuestro idioma sea realmente fiable y precisa.