Automatic End-to-End Data Integration using Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je drie verschillende bibliotheken hebt die je wilt samenvoegen tot één grote, perfecte bibliotheek. Maar er is een groot probleem:

In bibliotheek A staan boeken opgeslagen met de titel "Hoe te koken" en de auteur "Julia".
In bibliotheek B heet hetzelfde boek "Kookkunst" en de schrijver "J. Smith".
In bibliotheek C staat het onder "Recepten" met de naam "Julia Child".

Vroeger moest een menselijke bibliothecaris (een data-engineer) urenlang zitten om te beslissen: "Ah, dit is hetzelfde boek!" en om alle namen en titels in één standaardvorm te gieten. Dit is saai, duur en tijdrovend.

Dit artikel vertelt over een nieuw experiment waarbij een super-intelligente robot (een Large Language Model, specifiek GPT-5.2) deze hele klus voor zijn rekening neemt. De onderzoekers hebben geprobeerd om deze robot de volledige taak te laten uitvoeren, van het vinden van de overeenkomsten tot het samenvoegen van de gegevens, zonder dat een mens ook maar één knop heeft gedrukt of één label heeft geplakt.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Oplossen van de Puzzel (Schema Matching)

Stel je voor dat elke bibliotheek een eigen kaartsysteem heeft. De robot moet eerst begrijpen dat "Auteur" in de ene lijst hetzelfde is als "Schrijver" in de andere, en dat "Jaartal" hetzelfde is als "Publicatiedatum".

De mens: Kijkt naar de koppen en denkt na: "Oké, dit lijkt op dat."
De robot: Leest de hele lijst, kijkt naar de inhoud (bijv. "2023" vs "Launched in 2023") en zegt direct: "Dit is 100% hetzelfde!"
Het resultaat: De robot was net zo goed als de mens, en zelfs beter bij lijsten met saaie namen zoals "Kolom 1" en "Kolom 2", omdat hij de inhoud kon "ruiken" om te weten wat het was.

2. Het Standaardiseren van de Spelling (Value Normalization)

Soms schrijven mensen dingen anders. De ene schrijft "PS4", de ander "PlayStation 4". De ene schrijft "1 miljoen", de ander "1.000.000".

De mens: Moet een lijstje maken met alle mogelijke varianten en handmatig omzetten.
De robot: Gebruikt zijn enorme kennisbank. Hij weet direct dat "PS4" en "PlayStation 4" hetzelfde zijn, en dat "2000 seconden" waarschijnlijk "33 minuten" is. Hij doet dit automatisch voor duizenden regels, iets wat voor een mens veel te veel werk zou zijn.

3. Het Vinden van Dubbele Boeken (Entity Matching)

Dit is het moeilijkste deel: zeker weten dat "Julia Child" in lijst A en "J. Child" in lijst B echt dezelfde persoon zijn.

De mens: Moet duizenden voorbeelden handmatig labelen ("Ja, dit is hetzelfde" / "Nee, dit is anders") om een computerprogramma te trainen.
De robot: Gebruikt een slimme truc genaamd "Actief Leren". In plaats van alles te labelen, vraagt de robot: "Ik twijfel over deze twee. Kun jij me vertellen of dit hetzelfde is?" en leert dan direct van het antwoord.
Het resultaat: De robot leerde net zo snel en nauwkeurig als de mens, maar kostte slechts een fractie van de tijd.

4. Het Samenvoegen van de Beste Informatie (Data Fusion)

Stel je voor dat je twee bronnen hebt over een film. Bron A zegt: "De film duurde 90 minuten." Bron B zegt: "De film duurde 1 uur en 30 minuten." Wat is de waarheid?

De mens: Kijkt naar de bronnen en beslist: "Bron B is betrouwbaarder, dus ik kies die."
De robot: Kijkt ook naar de bronnen, maar gebruikt soms internet om te checken wat de actuele waarheid is.
Het resultaat: Voor vaste dingen (zoals de naam van een band) was de robot perfect. Voor dingen die veranderen (zoals de huidige winst van een bedrijf) was de robot soms iets minder goed, omdat zijn kennis soms iets verouderd is. Maar over het algemeen was het resultaat zeer goed.

De Kosten en Tijd: De "Robot vs. Mens" Vergelijking

Dit is misschien wel het meest indrukwekkende deel van het verhaal:

De Mens: Kostte ongeveer 19 uur werk per project (een hele werkweek voor één persoon) en kostte veel geld in loonkosten.
De Robot: Kostte ongeveer 2 uur (waarvan de robot gewoon "droomde" terwijl de computer draaide) en kostte slechts $9 aan rekenkosten.

De kwaliteit van het eindresultaat (de samengevoegde bibliotheek) was nagenoeg hetzelfde. De robot maakte net zo'n grote en complete verzameling als de mens.

Conclusie: Wat betekent dit voor ons?

Dit onderzoek laat zien dat we binnenkort misschien geen dure data-engineers meer nodig hebben om saaie, repetitieve taken uit te voeren bij het samenvoegen van gegevens. Een slimme AI kan de "plaatjes" leggen, de "spelling" corrigeren en de "dubbelingen" oplossen voor een prikkie.

Het is alsof je vroeger een heel team nodig had om een muur te metselen, maar nu een slimme 3D-printer hebt die het in een paar uur doet, met precies dezelfde kwaliteit. De mens hoeft dan alleen nog maar toe te kijken en eventueel de laatste hand te leggen als de printer een rare steen gebruikt.

Kortom: De robot kan de zware, saaie klus van data-integratie overnemen, waardoor mensen zich kunnen richten op de creatieve en strategische onderdelen van hun werk.

Automatic End-to-End Data Integration using Large Language Models

1. Het Oplossen van de Puzzel (Schema Matching)

2. Het Standaardiseren van de Spelling (Value Normalization)

3. Het Vinden van Dubbele Boeken (Entity Matching)

4. Het Samenvoegen van de Beste Informatie (Data Fusion)

De Kosten en Tijd: De "Robot vs. Mens" Vergelijking

Conclusie: Wat betekent dit voor ons?

Probleemstelling

Methodologie

Evaluatie en Gebruiksgevallen

Belangrijkste Resultaten

Bijdragen

Significantie

Automatic End-to-End Data Integration using Large Language Models

1. Het Oplossen van de Puzzel (Schema Matching)

2. Het Standaardiseren van de Spelling (Value Normalization)

3. Het Vinden van Dubbele Boeken (Entity Matching)

4. Het Samenvoegen van de Beste Informatie (Data Fusion)

De Kosten en Tijd: De "Robot vs. Mens" Vergelijking

Conclusie: Wat betekent dit voor ons?

Probleemstelling

Methodologie

Evaluatie en Gebruiksgevallen

Belangrijkste Resultaten

Bijdragen

Significantie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models