Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Dit paper introduceert nieuwe, schaalafhankelijke evaluatiemetrics voor "Text-to-Big SQL" om aan te tonen dat bestaande benchmarks ontoereikend zijn voor het beoordelen van de kosten, latentie en prestaties van LLM-agents in productieomgevingen met grote datasets.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas

Gepubliceerd Mon, 09 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Grote SQL" Test: Waarom slimme AI-agenten soms te duur of te traag zijn

Stel je voor dat je een superhandige kok (een AI-agent) hebt die voor je kookt. Je geeft hem een opdracht in gewone taal: "Maak een soep van alle groenten die donker zijn en snijd ze in blokjes."

In de wereld van kleine databases (zoals een simpele lijst met 100 recepten) is het makkelijk om te zien of de kok het goed heeft gedaan. Als hij een wortel vergeet of een ui te groot snijdt, proef je het direct. De "proef" (de test) is simpel: smaakt het? Ja of Nee?

Maar wat als je diezelfde kok vraagt om een soep te maken voor een heel dorp met miljoenen groenten? Dan verandert de spelletjesregels volledig.

Dit is precies wat dit paper onderzoekt. De auteurs zeggen: "We kijken alleen naar de smaak, maar vergeten de rekening en de tijd."

Hier is de uitleg in simpele taal:

1. Het Probleem: De "Grote SQL" Valstrik

Tot nu toe hebben onderzoekers gekeken of AI goed kan vertalen van "gewone taal" naar "database taal" (SQL). Ze keken alleen of het antwoord juist was.

Maar in de echte wereld (Big Data) werkt het anders:

  • De Kosten: Als de AI een foutje maakt (bijvoorbeeld: "Haal alle 10 miljoen rijen op in plaats van 10"), kost dat enorm veel geld in de cloud. Het is alsof je per ongeluk een hele vrachtwagen vol groenten laat bezorgen in plaats van één zak.
  • De Snelheid: Als de AI eerst 5 minuten nadenkt over welke groenten hij moet snijden, terwijl het koken zelf maar 1 seconde duurt, ben je te laat met je soep.
  • De "Extra" Groenten: Als de AI de soep maakt maar er ook nog een onnodige komkommer in doet (een extra kolom), is de soep nog steeds eetbaar. Bij een kleine database is dat een klein foutje. Bij een grote database kost het extra tijd en geld om die komkommer er weer uit te halen.

De huidige tests zien dit niet. Ze zeggen: "Fout! Je had geen komkommer nodig." Maar in de praktijk is dat een kleinigheidje dat we kunnen oplossen, zolang de soep maar goed smaakt.

2. De Oplossing: Twee Kanten Tellen

De auteurs van dit paper zeggen: "We moeten naar beide kanten kijken!"

  1. De Vertaling: Is de opdracht goed begrepen?
  2. De Uitvoering: Hoeveel kost het en hoe lang duurt het?

Ze hebben nieuwe meetlatjes (metrieken) bedacht, zoals een "Efficiëntie-Score".

  • Voorbeeld: Stel AI A maakt de soep perfect, maar duurt 10 minuten en kost €100. AI B maakt de soep 99% perfect, maar duurt 1 minuut en kost €1.
  • Oude test: AI A wint (want 100% perfect).
  • Nieuwe test ("Big SQL"): AI B wint (want het is sneller en goedkoper, en dat 1% foutje is te verwaarlozen).

3. De Experimenten: De "Kookwedstrijd"

De auteurs hebben de slimste AI's ter wereld (zoals GPT-4o, Claude, Gemini) op de proef gesteld. Ze lieten ze werken met een enorm groot dataset (TPC-H, een standaard voor grote data) en keken naar:

  • Hoe snel reageerden ze?
  • Hoeveel kostte het?
  • Wat gebeurde er als de dataset 10x, 100x of 1000x groter werd?

De verrassende bevindingen:

  • Snelheid is niet alles: De nieuwste, "slimste" AI's (zoals Claude Opus) waren soms extreem langzaam. Ze dachten te lang na voordat ze de pan op het vuur zetten.
  • Schaal maakt het erger: Bij kleine datasets was het verschil tussen de AI's klein. Maar bij enorme datasets (miljoenen rijen) werden de fouten van de langzamere AI's duizenden keren duurder. Een klein foutje bij een grote dataset is als een lek in een olietanker: het kost een fortuin om het te repareren.
  • De "Goedkoopste" winnaar: Soms was een iets minder "slimme" AI (zoals Gemini Flash) beter, omdat hij sneller was en minder kostte, zelfs als hij af en toe een onnodige komkommer in de soep deed.

4. De Conclusie: De "Rekening" is net zo belangrijk als het "Antwoord"

De boodschap van dit paper is helder:
In de wereld van Big Data (grote data) mag je niet alleen kijken of het antwoord juist is. Je moet ook kijken of het betaalbaar en snel genoeg is.

Als je een AI gebruikt voor een groot bedrijf, wil je niet de duurste, langzaamste kok die 100% perfect is. Je wilt de kok die snel, goedkoop en "voldoende goed" is.

Kort samengevat in een metafoor:
Vroeger keken we alleen of de auto op het juiste adres kwam. Nu, met Big Data, moeten we ook kijken of de auto niet 100 liter benzine heeft verbruikt voor een ritje van 1 kilometer, of dat de chauffeur 2 uur heeft zitten nadenken over welke route hij moet nemen terwijl de passagier al doodongeduldig is.

De auteurs zeggen: "Twee kanten tellen!" (Both Ends Count!). De vertaling én de uitvoering moeten samen goed zijn.