SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt, maar in plaats van boeken, zitten er in elke kast duizenden tabellen met gegevens: van klanten en bestellingen tot weerberichten en medische dossiers. Je wilt nu iets vragen aan deze bibliotheek, zoals "Hoeveel mensen hebben afgelopen week in Amsterdam een blauwe jas gekocht?".

Het probleem is dat de bibliothecarissen (de computers) niet begrijpen wat je zegt. Ze spreken alleen een heel specifieke, strenge taal genaamd SQL. Als je de vraag niet in die taal stelt, krijgen ze je niet.

Vroeger waren er maar een paar "oefenboeken" (datasets) om computers te leren deze taal spreken. Maar die boeken waren vaak te klein, te simpel of te gemaakt (als een tekening van een bos in plaats van een echt bos). Computers die daarop leerden, konden het goed doen op de oefeningen, maar faalden als ze in de echte wereld moesten werken.

Hier komt SQALE om de hoek kijken. Het is een nieuw, gigantisch oefenboek voor computers, gemaakt door onderzoekers van het CWI en de Universiteit van Amsterdam.

Wat is SQALE precies?

SQALE is een enorme verzameling van 517.676 oefenopdrachten. Elke opdracht bestaat uit drie delen:

De blauwdruk (Schema): Een tekening van hoe een database eruitziet.
De vraag (Natural Language): Een vraag in gewoon Nederlands of Engels, zoals een mens die zou stellen.
Het antwoord (SQL): De perfecte, werkende code die de vraag beantwoordt.

Maar wat maakt SQALE zo speciaal?

1. Geen nep-bioscopen, maar echte bioscopen

De meeste oude datasets waren als een nepstadje gebouwd voor een film: alles zag er netjes uit, maar het was niet echt. SQALE is gebouwd op SchemaPile, een verzameling van 135.875 echte databases die bedrijven en organisaties daadwerkelijk gebruiken.

Stel je voor dat je een piloot wilt opleiden.

Oude datasets: Je laat ze vliegen in een simulator met alleen rechte lijnen en helder weer.
SQALE: Je laat ze vliegen in een simulator met echte stormen, onverwachte storingen, en duizenden verschillende vliegtuigtypes.

Omdat SQALE gebaseerd is op echte databases, bevat het ook de "rommel" uit de echte wereld: namen die niet overeenkomen, vreemde afkortingen, en databases die soms wel 350 tabellen groot zijn (zoals een heel stadje in plaats van een huisje).

2. De "Kookrecept"-methode

Hoe hebben ze dit gemaakt? Ze hebben geen menselijke schrijvers ingehuurd om 500.000 vragen te bedenken (dat zou eeuwen duren). In plaats daarvan hebben ze een slimme "kookrecept"-methode gebruikt met een AI:

Het Ingrediënt: Ze nemen een echte database (bijvoorbeeld van een ziekenhuis).
De Uitbreiding: Een slimme AI (Qwen3) kijkt ernaar en zegt: "Dit is te klein. Laten we er 20 nieuwe tabellen aan toevoegen die er precies zo uitzien als het origineel." Zo krijgen ze enorme, complexe databases.
De Vraag: De AI bedenkt dan vragen die een mens zou stellen, variërend van simpel ("Hoeveel patiënten zijn er?") tot heel complex ("Vind de patiënten die in drie verschillende afdelingen zijn geweest en meer dan 500 euro hebben uitgegeven").
De Controle: De AI schrijft het antwoord in SQL, en een andere AI checkt of het antwoord echt werkt. Als het niet werkt, wordt het weggegooid. Alleen de perfecte recepten blijven over.

3. Waarom is dit belangrijk?

Vroeger waren de datasets te klein om grote, slimme modellen te trainen. Het was alsof je probeerde een chef-kok te trainen met alleen maar een recept voor een boterham.

Met SQALE hebben onderzoekers nu een reusachtige keuken met duizenden ingrediënten. Hierdoor kunnen ze:

Slimmere modellen trainen: Modellen die niet alleen de oefeningen kunnen, maar ook echt begrijpen hoe databases werken.
Meer variatie: Ze leren modellen omgaan met verwarring, dubbelzinnigheid en complexe vragen.
Toekomstbestendig: Het helpt bij het bouwen van systemen die in de toekomst automatisch data voor ons kunnen analyseren, zodat we gewoon kunnen praten met onze computers.

Samenvattend

SQALE is als het bouwen van een gigantisch, realistisch trainingskamp voor computers die moeten leren praten met databases. In plaats van ze te laten oefenen op simpele, nep-vragen, gooien we ze middenin de chaos en complexiteit van de echte wereld. Zo leren ze niet alleen de taal, maar ook hoe ze moeten denken als het echt moeilijk wordt.

De dataset is nu gratis beschikbaar voor iedereen die wil helpen de toekomst van data-analyse te bouwen.

SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas

Wat is SQALE precies?

1. Geen nep-bioscopen, maar echte bioscopen

2. De "Kookrecept"-methode

3. Waarom is dit belangrijk?

Samenvattend

Probleemstelling

Methodologie: De SQALE Generatiepijplijn

Belangrijkste Bijdragen

Resultaten en Dataset Kenmerken

Betekenis en Impact

SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas

Wat is SQALE precies?

1. Geen nep-bioscopen, maar echte bioscopen

2. De "Kookrecept"-methode

3. Waarom is dit belangrijk?

Samenvattend

Probleemstelling

Methodologie: De SQALE Generatiepijplijn

Belangrijkste Bijdragen

Resultaten en Dataset Kenmerken

Betekenis en Impact

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá