An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

Dit paper introduceert FusionSQL, een methode die de nauwkeurigheid van Text2SQL-modellen op onbekende en niet-gelabelde datasets kan schatten zonder referentieantwoorden, door patronen in de modeloutput te analyseren om afwijkingen van de trainingsdata te detecteren.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, getrainde vertaler hebt. Deze vertaler is gespecialiseerd in het omzetten van gewone menselijke vragen (zoals "Wie zijn de top 10 klanten?") naar complexe database-taal (SQL). Dit noemen we een Text2SQL-model.

Nu wil je deze vertaler gaan gebruiken in een nieuw bedrijf. Maar hier is het probleem: je hebt geen antwoordboekje. Je weet niet wat de "goede" antwoorden zijn, en je kunt ze ook niet snel controleren omdat het te duur is of te veel tijd kost om alles handmatig na te kijken.

Hoe weet je dan of je vertaler goed werkt in deze nieuwe situatie?

Dat is precies het probleem dat dit papier oplost met een nieuwe tool genaamd FusionSQL.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde Vlieg"

Normaal gesproken test je een AI-model door het duizenden vragen te laten beantwoorden en daarna te kijken of de antwoorden kloppen met een antwoordboekje (de "ground truth").

Maar in de echte wereld verandert alles voortdurend:

  • Nieuwe tabellen in de database.
  • Nieuwe vakjargon.
  • Privacyregels die het delen van antwoorden blokkeren.

Zonder antwoordboekje ben je als een piloot die vliegt in een mist. Je ziet de horizon niet. Je weet niet of je nog op koers ligt of dat je zo de berg in vliegt. Bedrijven durven hun software dan niet te lanceren, of ze lanceren het en het faalt.

2. De Oplossing: FusionSQL (De "Zonnewijzer")

FusionSQL is een slimme waarschuwingsmeter die werkt zonder antwoordboekje.

In plaats van te kijken naar de antwoorden zelf, kijkt FusionSQL naar hoe de AI denkt en hoe de nieuwe vragen lijken op de oude vragen waarvoor de AI is getraind.

De Analogie van de Schaatser:
Stel je voor dat je een schaatser hebt getraind op een gladde ijsbaan in Nederland (de trainingsdata). Nu moet hij gaan schaatsen op een ijsbaan in Canada (de nieuwe, onbekende data).

  • De oude methode: Je laat hem een wedstrijd rijden en kijkt pas achteraf of hij de finish heeft gehaald. (Te laat als hij valt).
  • De FusionSQL-methode: Je kijkt naar de sneeuw, de temperatuur en de vorm van het ijs. Je zegt: "Hé, dit ijs in Canada is 20% harder en de bochten zijn anders dan in Nederland. Op basis van hoe de schaatser reageert op deze veranderingen, voorspel ik dat hij waarschijnlijk 85% van de tijd goed zal presteren."

FusionSQL doet precies dit. Het meet de "afstand" tussen de oude en nieuwe situatie.

3. Hoe werkt het? (De Drie Detectoren)

FusionSQL gebruikt drie slimme "sensoren" om te meten hoe groot de verandering is:

  1. De Globale Verhuizer (Fréchet-descriptor):
    Dit kijkt naar de "gemiddelde sfeer". Is de nieuwe database net zo groot en complex als de oude? Of zijn er ineens veel meer tabellen? Het is alsof je kijkt of de nieuwe stad waar je naartoe verhuist, net zo druk is als je oude stad.
  2. De Uitzonderingsjager (Mahalanobis-descriptor):
    Dit kijkt naar de rare, vreemde vragen. Komen er vragen binnen die de AI nog nooit heeft gezien? Bijvoorbeeld: "Wat is de populairste TikTok-trend bij klanten die nooit online winkelen?" Dit zijn de "uitzonderingen" die vaak voor fouten zorgen. FusionSQL ziet deze rare patronen al voordat de AI faalt.
  3. De Vorm-analist (Sliced Wasserstein):
    Dit kijkt naar de vorm van de vragen. Veranderen de zinsbouw of de manier waarop mensen vragen stellen? Het is alsof je kijkt of de nieuwe vragen in een andere taal of met een ander accent worden gesteld.

4. De "Super-Dataset" (FusionDataset)

Om deze meter te kalibreren, hebben de auteurs een gigantische "proefbaan" gebouwd genaamd FusionDataset.

  • Dit is een verzameling van 3,3 miljoen vragen en antwoorden.
  • Het bevat alles: van simpele vragen tot zeer complexe, verwarrende vragen met "afleidende elementen" (bijvoorbeeld: "Noem de klanten die cool zijn, maar vergeet de klanten die niet cool zijn niet" – terwijl "cool zijn" niets met de database te maken heeft).

Dit is als een gymzaal voor de AI-meter. De meter heeft hier geoefend met duizenden verschillende scenario's, zodat hij later in de echte wereld precies weet wat hij moet doen.

5. Waarom is dit geweldig?

  • Snelheid: Het duurt seconden om een voorspelling te doen, in plaats van dagen om handmatig te testen.
  • Onafhankelijkheid: Het werkt met elk Text2SQL-model, of het nu een klein model is of een gigantisch AI-model. Je hoeft het model niet opnieuw te trainen.
  • Veiligheid: Bedrijven kunnen nu zeggen: "Oké, we lanceren de nieuwe versie, want onze meter zegt dat de kans op fouten klein is, zelfs zonder antwoordboekje."

Samenvatting in één zin

FusionSQL is als een slimme meteoroloog voor AI: in plaats van te wachten tot het regent (fouten optreden), kijkt het naar de luchtdruk en windrichting (de veranderingen in de data) om je te vertellen of je een paraplu nodig hebt, zodat je veilig kunt blijven werken zonder een antwoordboekje.