Each language version is independently generated for its own context, not a direct translation.

De "NabaOS": De Rekenbon van de AI (Geen Magie, Gewoon Bewijs)

Stel je voor dat je een persoonlijke assistent hebt die heel slim is, maar soms ook een beetje een dromer. Hij kan dingen doen die jij niet kunt, zoals e-mails controleren, je bankrekening bekijken of het weer opzoeken. Maar er is een groot probleem: deze assistent (een AI) kan soms hallucineren.

Hij kan zeggen: "Ik heb net 3 e-mails van Alice gelezen," terwijl hij in werkelijkheid geen enkele e-mail heeft opgehaald. Of hij zegt: "De beurskoers is 150 euro," terwijl hij dat gewoon heeft bedacht. Voor de gebruiker is het onmogelijk om te zien of de AI echt iets heeft gedaan of dat hij gewoon een mooi verhaal verzint.

Dit artikel introduceert NabaOS, een slim systeem om te checken of de AI eerlijk is, zonder dat het lang duurt of dure computers nodig heeft.

Het Probleem: Waarom de huidige "magische" oplossingen niet werken

Er zijn al mensen die proberen dit op te lossen met wiskundige "onweerlegbare bewijzen" (in het Engels: Zero-Knowledge Proofs).

De analogie: Stel je voor dat je een wiskundige wilt bewijzen dat je een taart hebt gebakken. De huidige methode is alsof je de hele keuken afsluit, een onzichtbare muur bouwt, en dan een getuige vraagt om urenlang te wachten tot hij kan bewijzen dat er wel een taart is, zonder dat hij de taart mag zien.
Het nadeel: Dit duurt te lang (minuten per vraag) en is te duur. Voor een chatbot die je binnen een seconde moet antwoorden, is dit onmogelijk. Bovendien bewijst het alleen dat de AI goed heeft gerekend, niet dat het antwoord waar is. Een AI kan perfect een leugen berekenen.

De Oplossing: De "Rekenbon" (Tool Receipts)

NabaOS doet het anders. In plaats van complexe wiskunde, gebruiken ze iets heel alledaags: een digitale rekenbon.

Hoe werkt het?

Stel je voor dat je in een restaurant zit. Je bestelt een pizza.

De Chef (de AI): Zegt: "Ik heb een pizza besteld bij de leverancier."
De Kassa (het Systeem): De AI zelf mag niet naar de leverancier gaan. Dat doet de kassa. De kassa belt de leverancier, haalt de pizza op, en geeft je een rekenbon.
De Rekenbon: Op deze bon staat:
- Wat er is besteld (de "input").
- Wat er is opgehaald (de "output", bijv. "3 e-mails").
- Een handtekening (een digitaal zegel) die niet kan worden vervalst.
De Check: Als de AI later tegen jou zegt: "Ik heb 5 e-mails gevonden," kijkt het systeem naar de rekenbon.
- Staat er op de bon "3 e-mails"? Dan zegt het systeem: "Stop! Je liegt. De bon zegt 3."
- Staat er op de bon "Geen e-mails"? Dan zegt het systeem: "Je zegt dat je niets vond, maar de bon zegt dat er 3 waren."

Dit gaat razendsnel (minder dan 15 milliseconden) en is bijna gratis.

De Slimme Filosofie: De "Wetenschap van het Weten"

Het meest interessante aan NabaOS is hoe het de antwoorden van de AI classifyert. Ze hebben inspiratie gehaald uit een oude Indiase filosofie (Nyāya), die zegt dat er verschillende manieren zijn om iets te weten.

In plaats van alleen te zeggen "Waar" of "Niet Waar", geeft NabaOS je een vertrouwensscore met nuance:

Direct Bewijs (Pratyakṣa): "Ik heb 3 e-mails gezien."
- Betekenis: Dit staat 100% op de rekenbon. Je kunt dit vertrouwen.
Een Redenering (Anumāna): "Alice lijkt bezorgd over de deadline."
- Betekenis: De AI heeft de e-mails gezien (bewijs), maar de conclusie dat ze bezorgd is, is een gevolgtrekking van de AI. Dit is slim, maar niet 100% feit. Het systeem zegt: "Dit is een goede gok, maar het staat niet letterlijk op de bon."
Getuigenis (Śabda): "Volgens Reuters stijgen de rentes."
- Betekenis: De AI heeft echt een nieuwsartikel opgehaald. Het systeem checkt of die link echt bestaat.
Afwezigheid (Abhāva): "Ik heb geen e-mails gevonden."
- Betekenis: De rekenbon zegt: "Resultaat: 0". Dit is een bewezen leegte.
Ongegrond: "Ik denk dat Alice morgen jarig is."
- Betekenis: Er is geen rekenbon voor. De AI verzint dit. Het systeem waarschuwt: "Dit is een mening, geen feit."

Wat hebben ze getest?

Ze hebben een test gemaakt genaamd NyayaVerifyBench. Ze lieten de AI 1.800 keer antwoorden, waarbij ze expres leugens in de antwoorden stopten (zoals "Ik heb 5 e-mails" terwijl er maar 3 waren).

De resultaten:

NabaOS ving 91% van alle leugens op.
Het was veel sneller dan andere methoden (geen wachttijd).
Het werkte in 4 talen (Engels, Hindi, Mandarijn, Spaans) even goed.
Als het systeem zegt: "Dit is volledig verifieerbaar", dan is het antwoord 98,7% correct.

Waarom is dit belangrijk voor jou?

Vroeger was het ofwel "Waar" of "Niet Waar". Met NabaOS krijg je informatie over hoe de AI aan zijn antwoord komt.

Als je een arts bent die een AI gebruikt om medische resultaten te lezen, wil je weten: "Is dit een direct resultaat van de labtest (Direct Bewijs) of is het een interpretatie van de AI (Redenering)?"
Als je een AI gebruikt om je geld te beheren, wil je zeker weten dat hij niet bedriegt over je saldo.

Conclusie:
NabaOS is als een super-snelkeuken die elke bestelling van je AI-assistent controleert met een onvervalste rekenbon. Het maakt de AI niet slimmer, maar het maakt hem eerlijker. Het geeft jou, de gebruiker, de controle om te beslissen: "Kan ik dit vertrouwen, of is dit slechts een slimme gok?"

Het is geen magie, het is gewoon goed bewijs.

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

De "NabaOS": De Rekenbon van de AI (Geen Magie, Gewoon Bewijs)

Het Probleem: Waarom de huidige "magische" oplossingen niet werken

De Oplossing: De "Rekenbon" (Tool Receipts)

Hoe werkt het?

De Slimme Filosofie: De "Wetenschap van het Weten"

Wat hebben ze getest?

Waarom is dit belangrijk voor jou?

Titel: Tool-ontvangers, niet Zero-Knowledge Proofs: Praktische Hallucinatie-detectie voor AI-agenten

1. Het Probleem: Het Vertrouwenskloof bij AI-agenten

2. Methodologie: NabaOS en Nyāya Pramāṇa

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

De "NabaOS": De Rekenbon van de AI (Geen Magie, Gewoon Bewijs)

Het Probleem: Waarom de huidige "magische" oplossingen niet werken

De Oplossing: De "Rekenbon" (Tool Receipts)

Hoe werkt het?

De Slimme Filosofie: De "Wetenschap van het Weten"

Wat hebben ze getest?

Waarom is dit belangrijk voor jou?

Titel: Tool-ontvangers, niet Zero-Knowledge Proofs: Praktische Hallucinatie-detectie voor AI-agenten

1. Het Probleem: Het Vertrouwenskloof bij AI-agenten

2. Methodologie: NabaOS en Nyāya Pramāṇa

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem