Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu a um cozinheiro de elite (uma Inteligência Artificial) para preparar uma sopa perfeita baseada apenas numa descrição que você deu em voz alta.

Até agora, os testes para avaliar esses cozinheiros focavam apenas numa coisa: "A sopa tem o gosto certo?" Se o cozinheiro usou o sal certo e os ingredientes certos, ele ganhava nota 10.

Mas os autores deste artigo, Germán, Lars e Marc, dizem: "Espera aí! Isso não é suficiente!"

Eles introduzem um novo conceito chamado "Text-to-Big SQL" (ou "Texto para SQL Gigante"). A ideia é que, quando você está lidando com dados gigantes (Big Data), não basta a receita estar certa. Você precisa olhar para duas pontas do processo:

A Receita (O Texto para SQL): O cozinheiro entendeu o que você pediu?
A Cozinha (A Execução): O cozinheiro gastou energia demais? Ele queimou a cozinha? Ele demorou 3 horas para fazer uma sopa que deveria levar 5 minutos?

Aqui está a explicação do artigo de forma simples, usando analogias do dia a dia:

1. O Problema: A Ilusão da "Receita Perfeita"

Nos testes antigos, se o cozinheiro fazia uma sopa com um ingrediente extra que não era necessário (por exemplo, colocar um pouco de canela numa sopa de tomate), ele era considerado um fracasso total. A nota era zero.

Mas, no mundo dos dados gigantes, isso é diferente.

Analogia: Imagine que você pediu uma pizza com queijo e tomate. O cozinheiro traz uma pizza com queijo, tomate e um pouco de manjericão extra.
No mundo pequeno: É um erro, a pizza está "errada".
No mundo gigante (Big Data): Você pode simplesmente tirar o manjericão com um garfo. A pizza está boa! PORÉM, o problema é que o cozinheiro gastou dinheiro e tempo para comprar e cortar o manjericão à toa. Se você tiver que fazer 1 milhão de pizzas, esse "manjericão extra" vai custar uma fortuna e demorar uma eternidade.

O artigo diz que os testes antigos ignoram esse custo e essa demora.

2. A Nova Medida: "A Eficiência do Cozinheiro"

Os autores criaram novas métricas (fórmulas de avaliação) que olham para o custo total e o tempo total, não apenas se a receita está certa.

Eles chamam isso de VES* e VCES. Pense neles como um "Relatório de Desempenho do Restaurante":

Quanto custou a energia? (Custo na nuvem).
Quanto tempo o cliente esperou? (Latência).
O cozinheiro fez perguntas desnecessárias? (A IA parou para pensar demais antes de cozinhar).

3. O Que Eles Descobriram?

Eles testaram os "cozinheiros" mais famosos do mundo (como GPT-4o, Claude Opus, Gemini) em uma cozinha gigante (Big Data).

O "Gênio Lento": Alguns modelos (como o Claude Opus) são super inteligentes e fazem a receita perfeita (nota 100% de precisão), mas demoram muito tempo para pensar e pedir ingredientes. No mundo real, isso custa muito dinheiro. É como ter um chef que faz a melhor pizza do mundo, mas leva 2 horas para fazer uma fatia.
O "Rápido e Barato": Outros modelos (como o Gemini Flash) podem errar um pouco mais na receita, mas são rápidos e baratos.
A Surpresa: Às vezes, um modelo "menos inteligente" é melhor para o negócio porque é mais rápido e barato, mesmo que precise de um pequeno ajuste no final.

4. O Perigo do "Efeito Escala"

A parte mais importante do artigo é sobre o tamanho dos dados.

Analogia: Se você errar uma receita numa panela pequena, você joga fora uma sopa. Custa R$ 5,00.
Se você errar essa mesma receita numa indústria de 100.000 panelas, você perde toneladas de comida e queima o combustível da fábrica. O custo explode!

O artigo mostra que, em dados gigantes, um erro pequeno na tradução do texto para a linguagem do computador pode custar milhares de dólares e deixar o sistema lento por horas.

5. Conclusão: O Futuro é "Duas Pontas"

O título do artigo é "Both Ends Count!" (As Duas Pontas Contam!).
A mensagem final é: Não olhe apenas se a IA acertou a resposta. Olhe também:

Quanto tempo ela demorou para pensar?
Quanto custou para executar a tarefa?
Ela desperdiçou recursos?

Para o futuro, os sistemas de IA precisam ser avaliados não apenas por serem "inteligentes", mas por serem eficientes e econômicos quando lidam com grandes volumes de dados. É como escolher um carro: não basta ele ser rápido; ele precisa ser econômico e não gastar gasolina demais no trânsito.

Resumo em uma frase:
Este artigo nos ensina que, ao usar Inteligência Artificial para analisar dados gigantes, não podemos nos contentar apenas com a "resposta certa"; precisamos garantir que essa resposta não tenha custado uma fortuna ou levado uma eternidade para chegar.

Each language version is independently generated for its own context, not a direct translation.

Título: Both Ends Count! Quão Bons são Agentes LLM em Text-to-"Big SQL"?

1. O Problema

O campo de Text-to-SQL (conversão de linguagem natural para SQL) e o de Big Data são amplamente estudados e avaliados separadamente, mas existe uma lacuna crítica na avaliação conjunta desses dois domínios.

Limitação dos Benchmarks Atuais: As métricas tradicionais de Text-to-SQL (como Exact Matching e Execution Accuracy) focam quase exclusivamente na precisão da tradução da consulta em pequenos conjuntos de dados. Elas tratam o erro como binário (certo/errado) e ignoram o custo computacional e a latência.
O Cenário Real (Big Data): Em sistemas de Big Data (como Amazon Athena, Spark, BigQuery), uma consulta SQL incorreta ou ineficiente tem consequências amplificadas.
- Custo e Latência: Um erro de tradução que resulta em uma coluna extra desnecessária ou em um join errado pode escanear terabytes de dados, consumindo recursos significativos e aumentando drasticamente o custo de execução e o tempo de resposta.
- Interatividade: Em análises interativas, se o tempo de geração da SQL pelo agente (incluindo raciocínio e chamadas de ferramentas) for maior que o tempo de execução da consulta, a utilidade do sistema é comprometida.
Definição do Problema: O artigo introduz o conceito de "Text-to-Big SQL", que exige que a avaliação considere não apenas a geração da consulta, mas também sua execução em escala, custo e eficiência.

2. Metodologia

Os autores propõem uma nova metodologia de benchmarking que trata a geração da consulta e a execução da consulta como cidadãos de primeira classe.

Arquitetura do Agente: Utilizam um agente baseado no framework ReAct (Reasoning + Acting), onde um LLM controlador guia o raciocínio, seleciona ferramentas e interpreta observações.
- Ferramentas: O agente interage com um motor Spark SQL através de quatro ferramentas: list_tables, get_schema, check_query (validação sintática) e run_query.
- Restrição de Design: O agente é interrompido após a primeira execução de run_query para evitar loops infinitos e custos excessivos, simulando um cenário de produção real onde reexecuções são custosas.
Benchmarks Utilizados:
- BIRD: Focado em precisão de tradução em bancos de dados relacionais reais.
- TPC-H: Benchmark clássico de análise de dados, utilizado aqui para testar a escalabilidade (Scale Factors de 10 a 1000) e o impacto de consultas complexas.
Modelos Avaliados: Uma comparação extensa de modelos de ponta (Frontier Models) de provedores como OpenAI (GPT-4o, GPT-5), Anthropic (Claude Opus), Google (Gemini) e outros, em configurações zero-shot.

3. Principais Contribuições (Novas Métricas)

O artigo propõe métricas inovadoras para capturar a eficiência em ambientes de Big Data, superando as limitações das métricas binárias:

VES (Valid Efficiency Score Estendido):*
- Uma evolução da métrica VES tradicional.
- Incorpora a precisão de colunas ( $P$ ), penalizando consultas que retornam colunas supérfluas (que não tornam o resultado inválido, mas aumentam o custo de processamento).
- Fórmula: Considera a precisão do resultado, a fração de colunas relevantes e a razão entre o tempo de execução da consulta "dourada" (ideal) e o tempo total end-to-end (incluindo raciocínio do agente e execução).
VCES (Valid Cost-Efficiency Score):
- Uma métrica orientada a custo, derivada do VES*.
- Incorpora o custo total end-to-end (tokens do LLM, chamadas de ferramentas e custo de execução da query no motor de Big Data).
- Permite identificar configurações de modelos que são mais econômicas, mesmo que ligeiramente mais lentas.
CVQ (Expected Cost per Valid Query):
- Quantifica o custo esperado para obter um resultado válido sob uma estratégia de "tentar até o sucesso" (retry-until-success).
- Crucial para entender como a imprecisão de um modelo se amplifica em custos quando os dados escalam (ex: falhar em um dataset de 1TB é muito mais caro do que em 1GB).

4. Resultados Chave

A avaliação de múltiplos modelos de LLM revelou insights importantes que as métricas tradicionais não capturam:

Precisão Não é Tudo: Modelos com alta precisão (ex: Claude Opus 4.6) podem ter tempos de execução end-to-end 90% maiores que modelos mais rápidos (ex: GPT-4o) devido ao tempo de raciocínio e orquestração de ferramentas. Em Big Data, a latência do agente pode ser o gargalo.
Discriminação de Modelos: As métricas tradicionais (como VES) falham em diferenciar modelos quando a precisão é alta. O VES* e o VCES conseguem separar claramente os modelos, favorecendo aqueles que combinam alta precisão com baixa latência e menor sobrecarga de colunas.
Trade-off Custo vs. Latência:
- Modelos como o Gemini 3 Flash mostraram-se extremamente eficientes em custo devido ao preço baixo por token, apesar de serem ligeiramente mais lentos.
- Modelos mais caros e rápidos (GPT-4o) podem ter um custo total maior se a precisão for menor, gerando mais reexecuções e consumo de tokens.
Impacto da Escala de Dados:
- Em escalas pequenas (SF 10), o tempo é dominado pela interação do agente (raciocínio).
- Em escalas grandes (SF 1000), o tempo de execução da consulta física domina.
- Amplificação de Erros: A métrica CVQ demonstrou que a diferença de custo entre modelos com pequena diferença de precisão (ex: 10%) torna-se crítica em grandes escalas. Um modelo com 90% de precisão pode custar 10x mais que um de 99% em grandes volumes de dados devido às reexecuções de consultas falhas.
Análise de Erros: A maioria dos erros não era de sintaxe, mas de formato de saída (colunas extras) ou estrutura de agregação. Em Text-to-Big SQL, colunas extras são "parcialmente corretas" mas custosas, uma nuente ignorada por métricas antigas.

5. Significância e Conclusão

Este trabalho é fundamental porque:

Muda o Paradigma de Avaliação: Demonstra que métricas de Text-to-SQL tradicionais são insuficientes para ambientes de produção de Big Data. A eficiência e o custo são tão importantes quanto a precisão semântica.
Guia para Seleção de Modelos: Fornece critérios práticos para escolher LLMs em cenários reais, onde o trade-off entre velocidade, custo e precisão deve ser gerenciado dinamicamente.
Abre Novas Frentes de Pesquisa: Identifica desafios futuros, como a otimização de planos físicos de consulta gerados por IA, a integração de funções definidas pelo usuário (UDFs) e o uso de consultas aproximadas (approximate queries) para reduzir custos em troca de precisão.

Em resumo, o artigo estabelece que para o Text-to-Big SQL ser viável em escala, a avaliação deve considerar "ambas as pontas" (geração e execução), e as novas métricas propostas (VES*, VCES, CVQ) são essenciais para medir o desempenho real desses sistemas.

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

1. O Problema: A Ilusão da "Receita Perfeita"

2. A Nova Medida: "A Eficiência do Cozinheiro"

3. O Que Eles Descobriram?

4. O Perigo do "Efeito Escala"

5. Conclusão: O Futuro é "Duas Pontas"

Título: Both Ends Count! Quão Bons são Agentes LLM em Text-to-"Big SQL"?

1. O Problema

2. Metodologia

3. Principais Contribuições (Novas Métricas)

4. Resultados Chave

5. Significância e Conclusão

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance