Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás en una cocina gigante, un Big Data (un almacén de datos masivo), y quieres pedirle a un chef robot (un Agente de IA) que prepare un plato específico basándose en lo que le dices en lenguaje normal.

El problema es que hasta ahora, solo nos fijábamos en si el plato sabía bien (¿la respuesta es correcta?), pero no nos importaba si el chef tardó horas en cocinarlo, si gastó todo el dinero de la alacena en ingredientes que no necesitaba, o si el plato salió con un montón de guarniciones innecesarias que nadie pidió.

Aquí te explico la idea central de este paper como si fuera una historia:

1. El Problema: "El Chef Perfecto pero Lento y Caro"

Antes, los expertos medían a estos chefs robots con una regla muy simple: "¿El plato es igual al que yo quería?". Si la respuesta era sí, ¡puntuación perfecta!

Pero en el mundo real de los datos gigantes (Big Data), esto no funciona.

El error silencioso: Si el chef te trae un plato con un ingrediente de más (una zanahoria extra que no pediste), en una cocina pequeña no pasa nada. Pero en un almacén gigante, esa zanahoria extra puede obligar al chef a mover toneladas de comida, gastar una fortuna en electricidad y tardar horas.
La regla de oro: En este nuevo mundo, no basta con que la respuesta sea correcta. También importa cuánto costó obtenerla y cuánto tardó. Si el chef tarda 10 minutos en pensar y 1 hora en cocinar, aunque el plato sea delicioso, es un desastre para tu negocio.

2. La Solución: "Text-to-Big SQL" (De Texto a SQL Gigante)

Los autores proponen cambiar las reglas del juego. En lugar de solo preguntar "¿Es correcto?", ahora preguntamos:

¿Es correcto? (¿El sabor está bien?)
¿Es eficiente? (¿Tardó mucho en cocinar?)
¿Es económico? (¿Gastó demasiados ingredientes o dinero?)

Llaman a esto "Text-to-Big SQL". Es como decir: "No solo quiero la receta, quiero saber cuánto me costará hacerla en una fábrica gigante".

3. Las Nuevas Herramientas de Medición (Los Termómetros)

Para medir esto, crearon tres nuevos "termómetros" (métricas):

VES (El Termómetro de Eficiencia):* Mira si el chef trajo ingredientes extra. Si le pides "pájaros" y te trae "pájaros y nubes", el termómetro baja un poco. No es un desastre total, pero te penaliza por el desorden.
VCES (El Termómetro del Dinero): Calcula cuánto te costó en total. Si el chef usa un robot muy caro para pensar, aunque sea rápido, el termómetro sube (mal). Si usa un robot barato pero lento, también sube. Buscan el equilibrio perfecto.
CVQ (El Costo de la Paciencia): Imagina que el chef se equivoca a veces. Si se equivoca, tienes que pedirle que lo haga de nuevo. Este termómetro calcula: "Si el chef falla el 20% de las veces, ¿cuánto dinero voy a gastar en total hasta que me traiga el plato correcto?". En datos gigantes, un error puede costar miles de dólares, así que este es el más importante.

4. Lo que Descubrieron (La Sorpresa)

Probaron a los mejores chefs robots del mundo (modelos como GPT-4o, Claude Opus, Gemini, etc.) en una cocina gigante (Big Data).

La sorpresa: Los chefs que eran los "más inteligentes" (daban respuestas perfectas) a veces eran los más lentos y caros.
- Ejemplo: Un chef (Claude Opus) cocinaba el plato perfecto, pero tardaba el doble de tiempo y gastaba el triple de dinero que otro chef (Gemini Flash) que era un poco menos perfecto pero mucho más rápido y barato.
El tamaño importa: Cuando los datos son pequeños, el tiempo de "pensamiento" del chef es lo que más tarda. Pero cuando los datos son gigantes (como un océano de información), el tiempo de "cocinar" (ejecutar la consulta) es lo que más tarda. Si el chef es lento pensando, el sistema se queda colgado.

5. La Analogía Final: El Taxi vs. El Helicóptero

Imagina que quieres ir al centro de la ciudad (obtener tu dato):

El modelo antiguo solo te decía: "¿Llegaste al centro? Sí/No".
El nuevo modelo (Text-to-Big SQL) te dice: "Llegaste, pero ¿en qué? ¿En un taxi barato que tardó 20 minutos? ¿O en un helicóptero que llegó en 2 minutos pero te costó 500 dólares y quemó mucho combustible?"

Conclusión

Este paper nos enseña que en el mundo de los datos masivos, la precisión no lo es todo. Un sistema de Inteligencia Artificial que es "perfecto" en papel puede ser un desastre en la vida real si es lento y caro.

Los autores nos dicen: "¡Cuidado con los dos extremos!". Necesitamos chefs que no solo sepan cocinar bien, sino que también sean rápidos, económicos y no tiren ingredientes a la basura. Han creado las reglas para medir eso, para que en el futuro podamos elegir al chef robot que realmente nos conviene.

Each language version is independently generated for its own context, not a direct translation.

A continuación presento un resumen técnico detallado del artículo "Both Ends Count! Just How Good are LLM Agents at Text-to-'Big SQL'?" en español.

1. El Problema: La Brecha entre Text-to-SQL y Big Data

El campo de Text-to-SQL (conversión de lenguaje natural a SQL) ha avanzado significativamente gracias a los Modelos de Lenguaje Grande (LLM) y agentes de IA. Sin embargo, la investigación actual se centra casi exclusivamente en bases de datos relacionales tradicionales y de escala moderada.

El artículo identifica una brecha crítica: en el mundo real, los sistemas Text-to-SQL se integran en flujos de trabajo de Big Data (como Amazon Athena, Spark, BigQuery). En este contexto, los métricas tradicionales de evaluación son insuficientes por dos razones principales:

Costo y Latencia Amplificados: Un error de traducción SQL (incluso menor) en un conjunto de datos masivo no solo produce un resultado incorrecto, sino que consume recursos de computación costosos, escanea volúmenes enormes de datos y genera latencia significativa.
Falta de Matices en la Corrección: Las métricas actuales suelen ser binarias (correcto/incorrecto). En Big Data, una consulta que devuelve columnas innecesarias (pero correctas en lógica) puede ser aceptable para el usuario (quien puede filtrarlas localmente), pero implica un costo de ejecución innecesario. Las métricas actuales penalizan esto como un fallo total, ignorando el costo de ejecución.

El término "Text-to-Big SQL" se refiere a este nuevo dominio donde la generación de SQL y su ejecución en motores de Big Data deben evaluarse conjuntamente.

2. Metodología y Diseño Experimental

Los autores proponen un marco de evaluación que trata tanto la generación como la ejecución como ciudadanos de primera clase.

Arquitectura del Agente: Utilizan un agente ReAct (Reasoning + Acting) basado en LangGraph. El agente interactúa con un motor Spark SQL mediante cuatro herramientas:
1. list_tables: Listar tablas disponibles.
2. get_schema: Obtener el esquema y muestras de datos.
3. check_query: Verificar la sintaxis de la consulta propuesta.
4. run_query: Ejecutar la consulta en el clúster.
  Nota: El agente se detiene tras la primera ejecución de run_query para evitar bucles infinitos y costos descontrolados.
Modelos Evaluados: Se evaluaron LLMs de vanguardia (GPT-4o, GPT-5, GPT-5.2, Claude Opus 4.5/4.6, Gemini 3 Flash/Pro, Kimi K2.5, GLM-5) en un entorno de producción (AWS EC2 y EMR).
Benchmarks:
- BIRD: Para evaluar la precisión de traducción en bases de datos realistas.
- TPC-H: Para evaluar el rendimiento a escala, permitiendo escalar los datos (Factores de Escala de 10, 100 y 1000) y medir el impacto en costos y tiempo.

3. Contribuciones Clave: Nuevas Métricas

El núcleo de la contribución es la introducción de métricas diseñadas específicamente para Text-to-Big SQL, que van más allá de la simple precisión:

Precisión a Nivel de Columna ( $P$ ): Reconoce que las consultas con columnas superfluas no son necesariamente inválidas, pero deben penalizarse por su impacto en el rendimiento.
$P(S, \hat{S}) = \frac{|S \cap \hat{S}|}{|\hat{S}|}$
Donde $S$ son las columnas verdaderas y $\hat{S}$ las columnas en el resultado.
VES (Valid Efficiency Score):* Una extensión del VES tradicional que integra la precisión de columnas, la corrección de filas y la relación entre el tiempo de ejecución de la consulta "gold" y el tiempo total de extremo a extremo (e2e), incluyendo la interacción del agente.
$VES^* = \frac{1}{N} \sum \left( \mathbb{1}(V, \hat{V}) \cdot P(S, \hat{S}) \cdot \frac{T_{gold}}{T_{e2e}} \right)$
VCES (Valid Cost-Efficiency Score): Similar a VES*, pero incorpora el costo total (tokens de LLM + costo de ejecución de la consulta en la nube). Esto es crucial para decisiones de despliegue en la nube.
CVQ (Expected Cost per Valid Query): Cuantifica el costo esperado para obtener un resultado válido bajo una estrategia de "reintentar hasta el éxito". Considera la tasa de éxito de un solo intento ( $p$ ) y el costo total ( $C_{e2e}$ ):
$CVQ = \frac{C_{e2e}}{p}$
Esta métrica revela que, a gran escala, un modelo con un 10% menos de precisión puede ser exponencialmente más costoso debido a los reintentos fallidos.

4. Resultados Principales

La Precisión no es Suficiente: Modelos con alta precisión en benchmarks tradicionales (como BIRD) pueden tener un rendimiento pésimo en Big Data debido a la latencia de razonamiento del agente o a la generación de columnas innecesarias. Por ejemplo, GPT-4o demostró ser el más equilibrado en velocidad y costo, mientras que modelos más nuevos como Opus 4.6 o Gemini 3 Pro, aunque precisos, sufrieron de latencia excesiva y costos elevados.
Discriminación de Modelos: Las métricas tradicionales (como VES) no lograron diferenciar bien entre modelos de alto rendimiento. En cambio, VES* y VCES lograron una discriminación mucho más fina, revelando que modelos más rápidos y con menos sobrecarga de columnas superfluas son preferibles en entornos interactivos.
Impacto de la Escala de Datos:
- A escalas pequeñas, el tiempo de interacción del agente (LLM + herramientas) domina el tiempo total.
- A escalas grandes (ej. TPC-H SF 1000), el tiempo de ejecución de la consulta SQL domina.
- CVQ mostró que los errores de precisión se vuelven catastróficamente costosos a medida que crece el volumen de datos. Un modelo con un 10% menos de precisión puede generar costos 10 veces mayores en grandes escalas debido a la necesidad de re-ejecutar consultas fallidas sobre terabytes de datos.
Análisis de Errores: El estudio de errores en el benchmark BIRD reveló que el 38.9% de los fallos se debieron a problemas de formato de salida (columnas extra), lo cual es considerado un "fallo" en métricas binarias pero un "éxito parcial" en Text-to-Big SQL si el usuario puede filtrar las columnas.

5. Significado y Conclusiones

El artículo establece que el desarrollo de sistemas Text-to-SQL para entornos de Big Data requiere un cambio de paradigma:

Evaluación Holística: No se puede optimizar solo la precisión de la traducción; se debe optimizar la eficiencia del agente, la latencia de razonamiento y el costo de ejecución.
Nuevos Desafíos: La investigación futura debe abordar la optimización de planes físicos, la integración de funciones definidas por el usuario (UDF) y el uso de consultas aproximadas cuando la precisión exacta no justifica el costo.
Selección de Modelos: No existe un "mejor modelo" universal. La elección depende del trade-off entre latencia y costo. Modelos rápidos y baratos (como Gemini 3 Flash) pueden ser superiores en etapas de baja latencia, mientras que modelos más precisos pero lentos pueden ser necesarios para consultas críticas, siempre que se gestione el costo de los reintentos.

En resumen, "Both Ends Count!" demuestra que para que los agentes de IA sean viables en la industria de Big Data, las métricas de evaluación deben evolucionar para reflejar la realidad económica y técnica de ejecutar consultas sobre datos masivos.

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

1. El Problema: "El Chef Perfecto pero Lento y Caro"

2. La Solución: "Text-to-Big SQL" (De Texto a SQL Gigante)

3. Las Nuevas Herramientas de Medición (Los Termómetros)

4. Lo que Descubrieron (La Sorpresa)

5. La Analogía Final: El Taxi vs. El Helicóptero

Conclusión

1. El Problema: La Brecha entre Text-to-SQL y Big Data

2. Metodología y Diseño Experimental

3. Contribuciones Clave: Nuevas Métricas

4. Resultados Principales

5. Significado y Conclusiones

Más como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance