LLM-FK: Multi-Agent LLM Reasoning for Foreign Key Detection in Large-Scale Complex Databases

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, chaotische bibliotheek binnenstapt. Er zijn duizenden boeken (de tabellen), maar niemand heeft de catalogus of de verbindingslijnen tussen de boeken geschreven. Je ziet dat boek A over "Leerlingen" gaat en boek B over "Docenten", maar je weet niet welke leerling bij welke docent hoort. In de wereld van databases noemen we deze verbindingen Buitenlandse Sleutels (Foreign Keys). Zonder deze sleutels is de database een puinhoop waar data niet betrouwbaar met elkaar kan praten.

Deze paper introduceert LLM-FK, een slimme, geautomatiseerde "detective" die deze verbindingen kan vinden in enorme, complexe databases, zelfs als de oorspronkelijke ontwerpers ze vergeten zijn of als de data rommelig is.

Hier is hoe het werkt, vertaald naar alledaagse taal:

Het Probleem: De "Naïeve" Aanpak faalt

Vroeger probeerden computers dit op twee manieren op te lossen:

De "Regel-Boer" (Heuristieken): Deze probeerde alleen te kijken naar de namen. Als er een kolom heet student_id en een andere teacher_id, dacht de computer: "Ah, die horen bij elkaar!" Maar wat als de namen gek zijn? Of als de data ontbreekt? Dan faalt deze methode.
De "Alles-Op-Één-Klap" AI: Je gaf een grote AI alle tabellen en vroeg: "Zoek de verbindingen!" Maar dit is als proberen een heel boek in één seconde te lezen. De AI raakt in de war, ziet te veel opties en maakt veel fouten.

De Oplossing: LLM-FK (Het 4-Koppige Detective-team)

In plaats van één grote AI te gebruiken, heeft LLM-FK een team van vier gespecialiseerde agenten (detectives) die samenwerken. Ze delen het werk op om de chaos te beheersen.

1. De Profiler (De "Schoonmaker" en "Sorteerder")

Stel je voor dat je een berg van 10 miljoen mogelijke boekparen hebt om te controleren. Dat is ondoenlijk.

Wat hij doet: De Profiler kijkt eerst naar de structuur van de bibliotheek. Hij zoekt naar unieke nummers (zoals een ID-kaart) in de boeken.
De Analogie: Hij zegt: "Wacht, we hoeven niet te kijken naar elk willekeurig paar. Laten we alleen kijken naar boeken die een 'ID-kaart' hebben. En laten we alleen kijken naar de boeken die waarschijnlijk een ID-kaart nodig hebben."
Het resultaat: Hij gooit 99% van de onmogelijke opties weg. In plaats van 10 miljoen opties, houden we er maar een paar duizend over. Dit maakt het werk veel sneller en veiliger.

2. De Interpreter (De "Context-expert")

Nu hebben we een lijst met mogelijke paren, maar we weten nog niet wat ze betekenen.

Wat hij doet: Deze agent kijkt naar de namen van de tabellen (bijv. "Leerlingen", "Docenten", "Extra Docent Info") en vraagt zich af: "Wat voor soort bibliotheek is dit?"
De Analogie: Hij denkt: "Ah, dit is een school! Dus 'Leerlingen' hebben waarschijnlijk een docent. 'Extra Docent Info' is gewoon meer info over dezelfde docent." Hij geeft het team een context (een verhaal) zodat ze niet blindelings naar cijfers kijken, maar begrijpen wat de data betekent.

3. De Refiner (De "Onderzoeker")

Nu heeft elk paar een eigen onderzoeker.

Wat hij doet: Hij kijkt naar een specifiek paar (bijv. kolom 'study_under' in de leerlingentabel en kolom 'id' in de docententabel). Hij gebruikt drie soorten bewijs:
1. Naam: Klinken ze op elkaar?
2. Statistiek: Komen de getallen overeen? (Als een leerling een ID heeft van 1 tot 5, moeten de docent-ID's ook 1 tot 5 zijn).
3. Betekenis: Past het verhaal?
De Analogie: Hij is als een detective die zegt: "De namen lijken niet op elkaar, maar de getallen kloppen perfect en het verhaal (een leerling heeft een mentor) maakt het logisch. Dit is een match!"

4. De Verifier (De "Hoofdcommissaris")

Soms maken de onderzoekers fouten. Misschien denken ze dat een kolom naar twee verschillende boeken verwijst, of dat er een cirkel is (Boek A verwijst naar B, en B weer naar A, wat onmogelijk is).

Wat hij doet: Hij kijkt naar het hele plaatje. Hij zoekt naar conflicten.
De Analogie: Als twee detectives zeggen dat hetzelfde boek naar twee verschillende plekken hoort, zegt de Hoofdcommissaris: "Dat kan niet. Laten we kijken welk verhaal het sterkste is en de andere weglaten." Hij zorgt ervoor dat de hele bibliotheek logisch en consistent is.

Waarom is dit zo goed?

Schaalbaarheid: Het kan omgaan met databases die zo groot zijn dat ze een menselijke hersenen zouden laten exploderen (zoals de MusicBrainz database met 300+ tabellen).
Robuustheid: Zelfs als data ontbreekt of de namen raar zijn (bijv. afkortingen), begrijpt het team de betekenis en maakt minder fouten dan oude methoden.
Geen menselijke hulp nodig: Het werkt volledig automatisch, zonder dat iemand handmatig regels moet schrijven.

Kortom: LLM-FK is als het hebben van een super-slim team van detectives dat een enorme, rommelige bibliotheek in een handomdraai sorteert, de juiste verbindingslijnen trekt en zorgt dat alles logisch samenhangt, terwijl oude methoden alleen maar naar de titels van de boeken keken en de boel in de war brachten.

LLM-FK: Multi-Agent LLM Reasoning for Foreign Key Detection in Large-Scale Complex Databases

Het Probleem: De "Naïeve" Aanpak faalt

De Oplossing: LLM-FK (Het 4-Koppige Detective-team)

1. De Profiler (De "Schoonmaker" en "Sorteerder")

2. De Interpreter (De "Context-expert")

3. De Refiner (De "Onderzoeker")

4. De Verifier (De "Hoofdcommissaris")

Waarom is dit zo goed?

Probleemstelling

Methodologie: Het LLM-FK Framework

Belangrijkste Resultaten

Bijdragen en Significantie

LLM-FK: Multi-Agent LLM Reasoning for Foreign Key Detection in Large-Scale Complex Databases

Het Probleem: De "Naïeve" Aanpak faalt

De Oplossing: LLM-FK (Het 4-Koppige Detective-team)

1. De Profiler (De "Schoonmaker" en "Sorteerder")

2. De Interpreter (De "Context-expert")

3. De Refiner (De "Onderzoeker")

4. De Verifier (De "Hoofdcommissaris")

Waarom is dit zo goed?

Probleemstelling

Methodologie: Het LLM-FK Framework

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

Network Slicing in 5G Mobile Communication Architecture, Profit Modeling, and Challenges

Pwned: How Often Are Americans' Online Accounts Breached?

Excess demand in public transportation systems: The case of Pittsburgh's Port Authority

Implicit Biases in Refereeing: Lessons from NBA Referees

BOPIM: Bayesian Optimization for influence maximization on temporal networks