Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale assistent hebt die voor een bank werkt. Deze assistent moet beslissingen nemen: "Is deze transactie verdacht?" of "Mag deze belegging?"

In de wereld van de financiële wetgeving is er één regel die heilig is: Als je dezelfde vraag stelt, moet je exact hetzelfde antwoord krijgen. Als een toezichthouder (zoals een inspecteur van de bank) vraagt: "Waarom heb je gisteren deze transactie geblokkeerd?", moet het systeem precies dezelfde reden en hetzelfde antwoord geven als toen.

Het probleem? De slimste AI-modellen (de "frontier" modellen) zijn soms zo creatief en flexibel, dat ze bij dezelfde vraag een heel ander pad kiezen om tot een antwoord te komen. Ze zijn als een kunstenaar: elke tekening is uniek, maar voor een bankrekening wil je geen kunst, je wilt een exacte kopie.

Hier is wat dit paper doet, vertaald in alledaags Nederlands:

1. De Probleemstelling: De "Willekeurige" AI

De onderzoekers ontdekten iets verrassends. Ze dachten: "Als een AI slimmer is, is hij ook consistenter."
Nee dus.
Het bleek dat de slimste, duurste AI-modellen juist minder betrouwbaar zijn als het gaat om het geven van exact hetzelfde antwoord. Ze zijn als een genie dat soms een briljant idee heeft, maar de volgende dag een ander briljant idee bedenkt voor hetzelfde probleem. Voor een bank is dat gevaarlijk: je kunt niet uitleggen aan de wet waarom je gisteren "ja" zei en vandaag "nee", zelfs als je slimme AI het "slimmer" vond.

Aan de andere kant zijn de kleinere, "dommere" modellen (zoals de 7 tot 20 miljard parameter modellen) als een robot die een strikt script volgt. Ze doen precies hetzelfde, elke keer weer. Maar ze zijn soms dom: ze zeggen "ja" omdat ze het script zo hebben geleerd, ook als het antwoord "nee" had moeten zijn.

2. De Oplossing: De "DFAH" (De Controle-Kit)

De auteur, Raffi, heeft een nieuwe meetlat bedacht die hij de DFAH noemt. Je kunt dit zien als een twee-in-één testkit voor je AI-assistent:

De "Repetitie-test" (Determinisme): Als je de AI 10 keer dezelfde opdracht geeft, doet hij dan precies hetzelfde? (Zoals een acteur die elke avond exact dezelfde tekst zegt).
De "Eerlijkheidstest" (Faithfulness): Gebruikt de AI de echte feiten die hij heeft opgezocht, of verzint hij mooie verhalen om zijn antwoord te rechtvaardigen? (Zoals een student die het antwoord verzint in plaats van het boek te raadplegen).

3. De Grote Ontdekking: Je kunt niet alles hebben

De belangrijkste conclusie van het paper is een beetje teleurstellend, maar heel belangrijk: Er is geen AI die zowel perfect consistent is als perfect slim.

De "Robuuste Robot" (Kleine modellen): Ze doen altijd precies hetzelfde (100% consistent), maar ze maken veel fouten in de inhoud (slechte nauwkeurigheid). Ze zijn als een automaat die altijd dezelfde munt uitwerpt, ook als je een ander bedrag nodig hebt.
De "Creatieve Genieën" (Grote modellen): Ze zijn vaak slimmer en vinden betere oplossingen, maar ze zijn onvoorspelbaar. Soms kiezen ze een andere route om naar hetzelfde doel te komen. Voor een bank is dat een nachtmerrie voor de audit.

De onderzoekers hebben bewezen dat consistentie en intelligentie niet met elkaar samenhangen. Je kunt niet zeggen: "Omdat deze AI slim is, is hij ook betrouwbaar." Je moet ze apart testen.

4. De Praktische Adviezen: Welke AI voor welk werk?

Op basis van deze tests geeft het paper een duidelijk advies voor banken:

Voor strikte controle (zoals anti-witwas of belasting): Gebruik de "Robuuste Robot" (kleine modellen). Je wilt liever een iets minder slim antwoord dat je altijd kunt uitleggen en reproduceren, dan een briljant antwoord dat je niet kunt verklaren.
Voor advies en onderzoek: Gebruik de "Creatieve Genieën" (grote modellen), maar laat dan altijd een mens de eindcontrole doen. De mens fungeert hier als de "garant" voor consistentie.

Samenvattend in een metafoor

Stel je voor dat je een recept moet kopiëren voor een grote banketbakkerij.

De kleine AI is als een machine die het recept letterlijk overtypet. Het ziet er elke keer hetzelfde uit (perfect voor de inspecteur), maar de taart is misschien een beetje droog (minder slim).
De grote AI is als een top-chef. Hij maakt elke keer een prachtige taart, maar hij gebruikt soms een andere lepel, een ander mengsel of een andere ovenstand. De taart is lekkerder, maar als de inspecteur vraagt: "Waarom gebruikte je gisteren een houten lepel en vandaag een metalen?", kan de chef niet hetzelfde antwoord geven.

De les van dit paper: In de financiële wereld, waar wetten en audits alles zijn, moet je eerst zorgen dat je machine het recept exact kan kopiëren. Pas daarna mag je kijken of de taart lekkerder wordt. En vergeet niet: je kunt niet verwachten dat je beide tegelijk krijgt zonder een menselijke handtekening.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents" in het Nederlands.

Titel: Herhaalbare Financiële Agenten: Een Zekerheidskoppel voor Determinisme en Toewijding bij Tool-gebruikende LLM-Agenten

Auteur: Raffi Khatchadourian (IBM Financial Services Market)
Datum: Maart 2026

1. Het Probleem: Audit-herhaalbaarheid in Financiële Diensten

Grootmodellen (LLM) die worden ingezet als agenten voor financiële taken (zoals compliance-triage, portefeuilleherbalancering en regulatorische rapportage) kampen met een kritiek probleem: regulatorische audit-herhaalbaarheid.

Wanneer een regulator vraagt om een gemarkeerde transactiebeslissing te reproduceren met identieke invoer, falen de meeste huidige implementaties om consistente resultaten te leveren. In de financiële sector zijn twee eigenschappen essentieel voor naleving:

Determinisme: Het systeem moet bij identieke invoer exact dezelfde output (beslissing) en idealiter dezelfde trajecten (tool-sequentie) genereren.
Toewijding (Faithfulness): De beslissing moet gebaseerd zijn op opgehaalde bewijsstukken (retrieved evidence) en niet op gefabriceerde redeneringen.

Bestaande benchmarks meten vaak alleen taakvoltooiing, maar negeren de consistentie van het traject over meerdere runs. Dit is ontoereikend voor gereguleerde omgevingen waar elke individuele beslissing reproduceerbaar moet zijn, niet slechts een gemiddelde prestatie.

2. Methodologie: Het DFAH Framework

De auteurs introduceren de Determinism-Faithfulness Assurance Harness (DFAH), een framework om traject-determinisme en bewijs-geconditioneerde toewijding te meten.

Definities en Metrieken

Het framework onderscheidt drie soorten determinisme:

Actie-determinisme: Identieke reeks tool-aanroepen.
Signatuur-determinisme: Identieke tool-aanroepen en argumenten.
Beslissings-determinisme: Identieke finale beslissing (bijv. "escaleren" vs. "afwijzen").

Voor compliance is de Passk-metriek cruciaal (de kans dat alle $k$ runs succesvol zijn), in plaats van de optimistische Pass@k (minstens één succes). Een regulator verwacht dat elke willekeurige herhaling van een historische beslissing exact hetzelfde resultaat oplevert.

Toewijding (Faithfulness):
In plaats van "waarheid" te meten (wat grondwahrheid vereist), meet DFAH de evidence grounding. Dit is de mate waarin claims in de beslissingsredenering lexicaal of semantisch overeenkomen met opgehaalde bewijsstukken. Een conservatieve heuristiek (Jaccard-similairiteit) wordt gebruikt om te voorkomen dat een LLM als "rechter" fungeert, wat zelf weer non-determinisme zou introduceren.

Experimenteel Opzet

Data: 4.700+ agente runs over 7 modellen (van 4 providers) en 3 financiële benchmarks.
Benchmarks:
1. Compliance Triage: Beslissen over transactie-alerts (escaleren/afwijzen/onderzoeken).
2. Portfolio Constraints: Validatie van handelsorders tegen limieten.
3. DataOps Exceptions: Oplossen van datakwaliteitsproblemen in pipelines.
Modellen: Vergelijking tussen kleine modellen (7–20B parameters, Tier 1), middelgrote modellen (Tier 2) en frontier-modellen (Claude Opus/Sonnet, Gemini 2.0/2.5).
Stress-tests: Simulatie van herimplementatie, data-kwaliteitsfouten, temporele verschuivingen en marktschokken.

3. Belangrijkste Bijdragen

DFAH Framework: Formele definities en een open-source implementatie voor het meten van traject- en beslissingsdeterminisme en toewijding.
Empirische Vinding: Een geen-correlatie tussen determinisme en taaknauwkeurigheid. Modellen kunnen deterministisch zijn zonder accuraat te zijn, en accuraat zonder deterministisch te zijn.
Grootschalige Evaluatie: De grootste studie tot nu toe naar agente consistentie in financiële contexten, inclusief stress-tests.
Trade-off Karakterisering: Kleine modellen bereiken hoge determinisme door rigide patroonherkenning (ten koste van nauwkeurigheid), terwijl frontier-modellen diverse tool-paden verkennen (hoge nauwkeurigheid, lagere determinisme).
Praktische Richtlijnen: Aanbevelingen voor model-tiering en validatie-schaalingsfactoren voor compliance-kritieke implementaties.

4. Resultaten

Geen Correlatie tussen Determinisme en Nauwkeurigheid

De analyse van 21 configuraties toont een statistisch niet-significante correlatie ( $r = -0.11$ , $p = 0.63$ ).

Conclusie: Het meten van slechts één metriek is ontoereikend. Een model dat 100% consistent is, kan systematisch verkeerde beslissingen nemen. Een model dat zeer accuraat is, kan onvoorspelbaar gedrag vertonen.

Model-Tier Analyses

Tier 1 (7–20B modellen, lokaal): Bereiken bijna perfect beslissings-determinisme (94–100%), maar met lage nauwkeurigheid (20–42%). Ze neigen naar "pattern matching" (bijv. altijd "onderzoeken" escaleren), wat leidt tot hoge consistentie maar lage intelligentie.
Frontier Modellen (Claude, Gemini): Vertonen moderate determinisme (50–96%) met variabele nauwkeurigheid. Ze tonen het fenomeen "Zelfde Conclusie, Verschillende Redenering": ze komen vaak tot dezelfde beslissing, maar gebruiken zeer verschillende tool-sequenties (lage signatuur-determinisme).
Geen "Sweet Spot": Geen enkel model behaalde zowel perfect determinisme als hoge nauwkeurigheid.

Invloed van Taakstructuur

Gestructureerde taken (Compliance Triage) tonen hogere determinisme dan semi-gestructureerde taken (DataOps).
De variatie in tool-paden (signature determinism) is de primaire bron van non-reproduceerbaarheid, zelfs als de finale beslissing hetzelfde blijft.

Stress-Tests

Schema-first architecturen (waarbij LLM-outputs worden ingekapseld in deterministische code) behielden hun determinisme beter onder stress (zoals data-fouten) dan onbeperkte agenten.

5. Betekenis en Implicaties

Voor Regulatorische Compliance

De studie benadrukt dat voor financiële audits determinisme een voorwaarde is, maar geen garantie voor juistheid. Een agent die consistent de verkeerde beslissing neemt, is voorspelbaar en auditbaar, terwijl een agent die soms goed en soms fout is (maar gemiddeld accuraat), niet reproduceerbaar is en dus niet voldoet aan regulatorische eisen (zoals de EU AI Act of US banking guidance).

Implementatieadvies

Compliance & AML: Gebruik Tier 1-modellen (7–20B) met een "schema-first" architectuur. Accepteer lagere nauwkeurigheid in ruil voor reproduceerbaarheid, en gebruik menselijke controle voor de nauwkeurigheid.
Advies & Onderzoek: Frontier-modellen kunnen worden gebruikt waar menselijke toezicht (Human-in-the-Loop) de variatie kan opvangen, omdat hun superieure taakprestatie hier de meerwaarde biedt.
Validatie: De auteurs stellen een schalingsfactor voor validatiestalen op. Tier 3-modellen vereisen 3,7 keer meer validatiestalen dan Tier 1-modellen om dezelfde statistische betrouwbaarheid te bereiken, wat ze economisch onhaalbaar maakt voor autonome compliance-taken.

Toekomstperspectief

Het paper pleit voor een verschuiving in de evaluatie van LLM-agenten: van puur "hoe goed lost het de taak op?" naar "hoe betrouwbaar en reproduceerbaar is de oplossing?". Het DFAH-framework biedt de infrastructuur om deze nieuwe dimensie te kwantificeren en te garanderen dat AI-systemen in de financiële sector niet alleen slim, maar ook auditbaar zijn.