Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Digitale Detectives: Hoe AI Agents de Wereld van Gegevens Verkennen

Stel je voor dat je een superintelligente detective hebt (een AI-agent) die een lastige vraag moet beantwoorden, bijvoorbeeld: "Welke boeken van Tim Berners-Lee zijn ook vermeld in de grote Wikipedia-lijst van wetenschappelijke artikelen?"

In het verleden moest deze detective één grote bibliotheek bezoeken. Maar vandaag de dag is kennis verspreid over duizenden kleine bibliotheken (data-bronnen) over de hele wereld. Sommige zijn open, sommige gesloten, en ze hebben allemaal een ander systeem.

Dit onderzoek gaat over hoe we deze detective kunnen uitrusten met een magische sleutelbundel (MCP) en een nieuwe strategie om al die verspreide bibliotheken tegelijkertijd te doorzoeken.

1. Het Probleem: De "Verloren in de Stad"-Situatie

Vroeger waren AI's als een persoon die in een stad staat zonder kaart. Ze konden wel vragen stellen, maar ze wisten niet:

Welke bibliotheek het juiste boek heeft.
Hoe ze de vraag moeten formuleren in de taal van die specifieke bibliotheek.
Of de bibliotheek überhaupt open is (soms zijn servers traag of gesloten).

De auteurs van dit paper noemen dit de "Agentic SPARQL" uitdaging. Ze willen dat de AI niet alleen een vraag stelt, maar ook zelf de weg vindt, de juiste bibliotheken kiest en de vragen combineert.

2. De Oplossing: De Magische Sleutelbundel (MCP)

De onderzoekers gebruiken een nieuwe standaard genaamd MCP (Model Context Protocol).

De Analogie: Denk aan MCP als een universele telefoon-app op de smartphone van de detective.
Met deze app kan de detective niet alleen praten, maar ook direct bellen met bibliotheken, hun catalogus inzien en vragen stellen.
Het maakt het mogelijk voor de AI om te "plannen": "Eerst bel ik bibliotheek A, dan bibliotheek B, en dan combineer ik de antwoorden."

3. De Uitdagingen: Waarom is dit moeilijk?

Het is alsof je probeert een puzzel te maken met stukjes van 100 verschillende puzzels die allemaal een andere vorm hebben:

Verschillende Talen: Sommige bibliotheken spreken alleen "RDF", andere "SPARQL". De AI moet dit vertalen.
Onbetrouwbare Bibliotheken: Soms is een bibliotheek gesloten of erg traag. De AI moet weten welke ze wel kunnen bereiken.
De "Triviale" Fout: Een slome detective zou zeggen: "Ik bel gewoon ALLE bibliotheken tegelijk!" Dit werkt, maar het is inefficiënt en kost enorm veel tijd en geld. Een slimme detective zoekt alleen de bibliotheken waar het antwoord waarschijnlijk zit.

4. Het Experiment: De Grote Test

Om te testen of dit werkt, hebben de onderzoekers een gigantische proefopstelling gemaakt (het FKGQA-benchmark).

Ze hebben 19 grote datasets opgeknipt in stukjes en verspreid over 118 verschillende "virtuele bibliotheken".
Ze gaven twee soorten detectives een opdracht:
- De Super-Detective (GPT-5.2): Een zeer krachtige AI.
- De Starter-Detective (Qwen3-8B): Een kleinere, lichtere AI.

De regels van het spel:
De detectives moesten zelf de juiste bibliotheken vinden, de vragen opstellen en het antwoord geven, zonder dat de onderzoekers hen vertelden welke bibliotheken ze moesten bezoeken.

5. De Resultaten: Wie wint de wedstrijd?

De Super-Detective (GPT-5.2):
- Succes: Deze AI was verrassend goed! Ze haalde een score van ongeveer 45%. Dat is net zo goed als de beste systemen die we tot nu toe hadden, maar dan zonder dat mensen de weg moesten wijzen.
- Gedrag: Ze was slim. Ze zocht eerst een beetje rond, belde de juiste bibliotheken en vermijdde het bellen van alle bibliotheken tegelijk.
- Tip: Het bleek dat een korte, simpele beschrijving van een bibliotheek ("Hier staan auto's") beter werkte dan een enorme, technische handleiding.
De Starter-Detective (Qwen3-8B):
- Succes: Deze AI had het veel moeilijker. Ze haalde slechts 13% correcte antwoorden.
- Gedrag: Ze maakte veel taalkundige fouten in de vragen die ze stelde. In plaats van slim te zoeken, belde ze vaak alle bibliotheken tegelijk (de "triviale" fout). Ze probeerde alles te doen in één keer, wat leidde tot chaos.

6. Wat betekent dit voor de toekomst?

Dit onderzoek toont aan dat:

AI Agents klaar zijn voor de echte wereld: Met de juiste tools (zoals MCP) kunnen AI's zelfstandig complexe vragen beantwoorden door data uit verschillende bronnen te halen.
Kracht is nodig: Je hebt een "slimme" AI nodig (zoals de Super-Detective) om dit goed te doen. Kleinere modellen maken nog te veel fouten.
Eenvoud is beter: Voor AI's is het vaak beter om een korte, menselijke beschrijving van een bron te krijgen dan een complexe technische lijst.

Kortom: We hebben een nieuwe manier gevonden om AI's te leren werken als echte onderzoekers die de hele wereld van gegevens kunnen verkennen, in plaats van alleen maar in één bibliotheek te zoeken. Maar we moeten nog wel zorgen dat de "jongere" AI's slimmer worden voordat ze volledig op hun eigen benen kunnen staan.

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

🕵️‍♂️ De Digitale Detectives: Hoe AI Agents de Wereld van Gegevens Verkennen

1. Het Probleem: De "Verloren in de Stad"-Situatie

2. De Oplossing: De Magische Sleutelbundel (MCP)

3. De Uitdagingen: Waarom is dit moeilijk?

4. Het Experiment: De Grote Test

5. De Resultaten: Wie wint de wedstrijd?

6. Wat betekent dit voor de toekomst?

Titel

1. Probleemstelling

2. Methodologie

A. SPARQL-MCP Server

B. FKGQA Benchmark (Federated Knowledge Graph Question Answering)

C. Evaluatie-Setup

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Agentic SPARQL: Evaluating SPARQL-MCP-powered Intelligent Agents on the Federated KGQA Benchmark

🕵️‍♂️ De Digitale Detectives: Hoe AI Agents de Wereld van Gegevens Verkennen

1. Het Probleem: De "Verloren in de Stad"-Situatie

2. De Oplossing: De Magische Sleutelbundel (MCP)

3. De Uitdagingen: Waarom is dit moeilijk?

4. Het Experiment: De Grote Test

5. De Resultaten: Wie wint de wedstrijd?

6. Wat betekent dit voor de toekomst?

Titel

1. Probleemstelling

2. Methodologie

A. SPARQL-MCP Server

B. FKGQA Benchmark (Federated Knowledge Graph Question Answering)

C. Evaluatie-Setup

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach