Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Adeela Bashir, Zhao Song, Ndidi Bianca Ogbo, Nataliya Balabanova, Martin Smit, Chin-wing Leung, Paolo Bova, Manuel Chica Serrano, Dhanushka Dissanayake, Manh Hong Duong, Elias Fernandez Domingos, Nikita Huber-Kralj, Marcus Krellner, Andrew Powell, Stefan Sarkadi, Fernando P. Santos, Zia Ush Shamszaman, Chaimaa Tarzi, Paolo Turrini, Grace Ibukunoluwa Ufeoshi, Victor A. Vargas-Perez, Alessandro Di Stefano, Simon T. Powers, The Anh Han

Gepubliceerd 2026-03-27

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Vertrouwen als Controle: Hoe Mensen en AI-ontwikkelaars met elkaar omgaan

Stel je voor dat je een nieuwe, slimme robot koopt die je helpt met je huiswerk, je werk of zelfs je gezondheid. Je wilt dat deze robot eerlijk en veilig is. Maar hoe weet je of de fabrikant (de ontwikkelaar) zich aan de regels houdt? En hoe gedraagt de fabrikant zich als jij hem niet constant in de gaten houdt?

Dit wetenschappelijke artikel onderzoakt precies dat: een dynamisch spel tussen gebruikers (zoals jij en ik) en AI-ontwikkelaars (de bedrijven). De auteurs gebruiken wiskunde en speltheorie om te begrijpen hoe vertrouwen ontstaat, verdwijnt of verandert.

Hier is de kern van het verhaal, vertaald naar alledaagse taal met een paar creatieve vergelijkingen.

1. Het Grote Misverstand: Vertrouwen is niet "Blind Geloof"

Veel mensen denken dat vertrouwen betekent: "Ik ga er blindelings van uit dat alles goed is."
De auteurs zeggen: Nee! In deze studie is vertrouwen iets heel anders.

De Vergelijking: Stel je voor dat je een kind op een speeltuin laat spelen. Als je het kind niet in de gaten houdt, is dat niet omdat je denkt dat het kind een engel is. Het is omdat je te moe bent om de hele tijd te kijken, of omdat het kijken te veel tijd kost.
De conclusie: Vertrouwen is hier gedefinieerd als "minder controleren". Als je een ontwikkelaar vertrouwt, stop je met het controleren van elke stap die hij zet, omdat het controleren te duur of te lastig is.

2. Het Spel: De Ontwikkelaar en de Gebruiker

Het spel speelt zich af in twee kampen:

De Ontwikkelaars (De Bakers): Ze kunnen kiezen voor een veilig brood (veilige AI) of een giftig brood (onveilige AI).
- Veilig brood maken kost meer tijd en geld (hoge kosten).
- Giftig brood maken is goedkoop, maar als je betrapt wordt, krijg je een boete (straf).
De Gebruikers (De Kopers): Ze kunnen kiezen om het brood te kopen of niet. En als ze kopen, kunnen ze kiezen om te kijken of het brood veilig is, of om er blind op te vertrouwen.
- Kijken kost tijd en energie (de "kosten van controle").
- Niet kijken is makkelijk, maar als het brood giftig is, word je ziek.

3. De Drie Mogelijke Werelden

De onderzoekers hebben gekeken wat er gebeurt als dit spel duizenden keren wordt gespeeld. Er zijn drie mogelijke eindresultaten (regimes):

De "Niemand Koopt" Wereld:
De controle is te duur, de boetes zijn te laag, en de ontwikkelaars maken giftig brood. De gebruikers zijn bang en kopen niets. Niemand is blij.
De "Gevaarlijke Hype" Wereld:
De ontwikkelaars maken giftig brood, maar de boetes zijn zo laag dat het ze niets uitmaakt. De gebruikers kopen het wel (misschien omdat ze niet weten dat het giftig is, of omdat het te duur is om te controleren). Dit is een gevaarlijke situatie waar veel mensen ziek worden.
De "Ideale Wereld" (Dit willen we):
De ontwikkelaars maken veilig brood en de gebruikers kopen het.
- Hoe krijg je dit? De boetes voor giftig brood moeten hoger zijn dan de kosten om veilig brood te maken. En de gebruikers moeten in staat zijn om af en toe te controleren (zonder dat het hen te veel kost).

4. De Belangrijkste Leerlessen (De "Gouden Regels")

De studie leert ons drie belangrijke dingen voor het regelen van AI:

Regels alleen zijn niet genoeg: Je kunt niet alleen zeggen "Jullie moeten veilig zijn". Als het controleren te moeilijk of te duur is voor de gebruiker, zullen ze stoppen met kijken. Als ze stoppen met kijken, durven de ontwikkelaars het aan om de regels te overtreden.
- Analogie: Als er geen politie is die controleert of je een helm op hebt, en het dragen van een helm is erg lastig, dan dragen mensen hem niet.
Transparantie is goud waard: Als het voor gebruikers makkelijk is om te zien hoe de AI werkt (bijvoorbeeld door duidelijke rapporten of simpele tests), dan dalen de "kosten van controle". Als controleren makkelijk is, blijven mensen waakzaam.
- Analogie: Als een restaurant een open keuken heeft waar je kunt zien hoe ze koken, hoef je niet zelf te proeven of het voedsel bedorven is. Je vertrouwt ze omdat je het kunt zien.
Blind vertrouwen is gevaarlijk: Als gebruikers volledig stoppen met controleren (blind vertrouwen), krijgen ontwikkelaars een prikkel om te "cheaten". Vertrouwen moet een bewuste keuze zijn, gebaseerd op de mogelijkheid om te controleren als dat nodig is.

5. Wat zeggen de computersimulaties?

De auteurs hebben dit niet alleen met wiskunde berekend, maar ook met computers die "leren" (zoals een robot die probeert de beste strategie te vinden).

Als het controleren goedkoop is, leren de robots om te vertrouwen en samen te werken.
Als het controleren te duur wordt, stoppen ze met controleren, beginnen de ontwikkelaars te "cheaten", en stort het systeem in.

Samenvatting in één zin

Om veilige AI te krijgen, moeten we zorgen dat het voor gebruikers makkelijk en goedkoop is om te controleren, en dat de boetes voor onveilige AI zwaar genoeg zijn om de verleiding tot bedrog te overwinnen. Vertrouwen is geen blind geloof, maar een slimme strategie om te weten wanneer je je ogen dicht kunt doen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Trust as Monitoring: Evolutionaire Dynamiek van Gebruikersvertrouwen en Gedrag van AI-ontwikkelaars

1. Probleemstelling

De veiligheid van kunstmatige intelligentie (AI) wordt een steeds dringender zorg naarmate de capaciteiten en adoptie van AI-systemen groeien. Bestaande evolutionaire modellen voor AI-governance hebben zich voornamelijk gericht op prikkels voor veilige ontwikkeling en effectieve regulering. Een cruciaal ontbrekend element is echter de dynamiek van gebruikersvertrouwen.

In eerdere modellen wordt vertrouwen vaak gereduceerd tot een eenmalige adoptiekeuze (een "one-shot" interactie). In werkelijkheid is vertrouwen een dynamisch, evoluerend proces dat wordt gevormd door herhaalde interacties, ervaring en waargenomen gedrag. De centrale vraag is hoe het vertrouwen dat gebruikers in AI-systemen stellen verandert onder verschillende regelgevingsregimes, en hoe dit de ontwikkeling van veilige versus onveilige AI beïnvloedt. Er is een risico dat gebruikers ofwel blindelings vertrouwen (en worden uitgebuit) of juist wantrouwen (en de voordelen van AI missen).

2. Methodologie

De auteurs ontwikkelen een evolutionair speltheoretisch model (Evolutionary Game Theory - EGT) om de interactie tussen gebruikers en AI-ontwikkelaars (creators) te analyseren.

Definitie van Vertrouwen: Vertrouwen wordt gedefinieerd als verminderde monitoring. Omdat het controleren van het gedrag van een partner kostbaar is, gebruiken individuen vertrouwen als een heuristiek om de frequentie van controle te verlagen.
Spelstructuur: Het model beschrijft een asymmetrisch herhaald spel tussen twee populaties:
- Gebruikers: Kies uit vijf strategieën:
  - AllA: Altijd adopteren, nooit monitoren.
  - AllN: Nooit adopteren.
  - TFT (Tit-for-Tat): Altijd monitoren en adopteren, reactie op het vorige gedrag.
  - TUA (Trust Until Abuse): Start met TFT, maar na $\theta_T$ opeenvolgende samenwerkingen schakelen over naar onvoorwaardelijke samenwerking met lage monitoring.
  - DtG (Distrust until Good): Start met TFT, maar na $\theta_D$ opeenvolgende defecties schakelen over naar onvoorwaardelijke afwijzing met lage monitoring.
- Ontwikkelaars: Kies tussen:
  - Coopereren (C): Veilige (compliant) AI ontwikkelen (kostbaar, maar betrouwbaar).
  - Defecteren (D): Onveilige (non-compliant) AI ontwikkelen (goedkoper, maar risicovol voor gebruikers).
Regulering: Regels worden niet als een actieve speler gemodelleerd, maar als een institutionele struktuur. Ontwikkelaars die onveilige systemen uitbrengen, krijgen een sanctie ( $v$ ) als dit wordt ontdekt (via monitoring).
Analysemethoden:
1. Oneindige populaties: Replicator-dynamica (ODE-systemen) om de evolutie van strategie-frequenties te analyseren.
2. Eindige populaties: Stochastische dynamica met Markov-ketens en fixatie-kansen (Fermi-distributie) om toeval en drift te modelleren.
3. Versterkingslering (Reinforcement Learning - RL): Q-learning simulaties waarbij agents hun beleid leren door trial-and-error op basis van beloningen, zonder voorafgaande kennis van de strategieën van anderen.

3. Belangrijkste Bijdragen

Conceptuele Innovatie: De eerste geïntegreerde behandeling van "vertrouwen als verminderde monitoring" in een asymmetrisch herhaald spel tussen gebruikers en ontwikkelaars.
Methodologische Triangulatie: Het gebruik van drie complementaire benaderingen (replicator-dynamica, stochastische eindige populaties en Q-learning) om robuustheid van de resultaten te garanderen.
Strategische Nuance: Het introduceren van dynamische vertrouwenstrategieën (TUA en DtG) die reageren op historische prestaties, in plaats van statische "altijd vertrouwen" of "nooit vertrouwen" modellen.
Governance-insights: Het kwantificeren van de drempels waarbij regelgeving en lage monitoringkosten leiden tot veilige AI-ecosystemen.

4. Resultaten

De analyse identificeert drie robuuste langetermijnregimes, afhankelijk van de kosten van monitoring ( $\epsilon$ ) en de hoogte van institutionele sancties ( $v$ ):

Geen adoptie met onveilige ontwikkeling: Gebruikers vertrouwen niet en adopteren niet; ontwikkelaars produceren onveilige AI. Dit treedt op bij hoge monitoringkosten of zwakke sancties.
Onveilige maar wijdverspreide systemen: Gebruikers vertrouwen blindelings (AllA) of monitoren niet effectief, terwijl ontwikkelaars onveilige AI blijven produceren omdat de kosten van veiligheid hoger zijn dan de verwachte straffen. Dit is een gevaarlijk regime met hoge adoptie maar groot risico.
Veilige systemen met wijdverspreide adoptie (Wenselijk): Ontwikkelaars kiezen voor veilige AI en gebruikers adopteren breed. Dit regime ontstaat alleen wanneer:
- De sanctie voor onveilig gedrag ( $v$ ) de extra kosten van veiligheid ( $c$ ) overstijgt.
- Gebruikers zich de kosten van monitoring ( $\epsilon$ ) nog steeds kunnen veroorloven om af en toe te controleren.

Specifieke bevindingen:

Rol van Monitoringkosten: Als monitoring te duur wordt, nemen gebruikers de strategie "AllA" (blind vertrouwen) of "AllN" (geen vertrouwen) over. Dit drijft ontwikkelaars naar onveilige strategieën.
Rol van Vertrouwensstrategieën (TUA/DtG): In eindige populaties en RL-simulaties verbeteren deze strategieën de adoptie en helpen ze samenwerking te behouden zolang monitoring betaalbaar is. Ze verschuiven echter niet de fundamentele langetermijnregimes, maar beïnvloeden hoe snel het systeem convergeert.
RL vs. EGT: De conclusies van Q-learning zijn consistent met replicator-dynamica. Bij lage monitoringkosten gedragen Q-learning agents zich vergelijkbaar met evolutionaire modellen. Bij hoge kosten leiden beide tot een defecte en onbetrouwbare samenleving.
Niet voldoende: Alleen regelgeving (zonder lage monitoringkosten) of blind vertrouwen is onvoldoende om een evolutionaire drift naar onveilige uitkomsten te voorkomen.

5. Betekenis en Implicaties

De resultaten bieden formele onderbouwing voor beleidsvoorstellen in de AI-governance:

Transparantie en Lage Kosten: Het is cruciaal dat de kosten voor gebruikers om AI-systemen te controleren laag blijven (bijv. via gestandaardiseerde audits, transparante documentatie en toegankelijke evaluaties). Dit stelt gebruikers in staat om "gekalibreerd vertrouwen" te houden.
Effectieve Handhaving: Sancties voor onveilig gedrag moeten significant zijn. Als de verwachte last van naleving hoger is dan de consequenties van betrapt worden, zullen ontwikkelaars evolutionair gezien kiezen voor onveilige strategieën.
Adaptief Vertrouwen: Vertrouwen in AI moet worden gezien als een adaptief, doorlopend proces. Gebruikers moeten niet volledig blind vertrouwen, maar ook niet volledig wantrouwen; ze moeten in staat zijn om af en toe te monitoren om risico's te externaliseren.

Het artikel concludeert dat een gezond AI-ecosysteem vereist dat gebruikers minstens gedeeltelijk waakzaam kunnen blijven, ondersteund door een regelgevingskader dat veilige ontwikkeling economisch aantrekkelijker maakt dan onveilige praktijken.

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

1. Het Grote Misverstand: Vertrouwen is niet "Blind Geloof"

2. Het Spel: De Ontwikkelaar en de Gebruiker

3. De Drie Mogelijke Werelden

4. De Belangrijkste Leerlessen (De "Gouden Regels")

5. Wat zeggen de computersimulaties?

Samenvatting in één zin

Titel: Trust as Monitoring: Evolutionaire Dynamiek van Gebruikersvertrouwen en Gedrag van AI-ontwikkelaars

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Implicaties

Meer zoals dit

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach

Supervising Ralph Wiggum: Exploring a Metacognitive Co-Regulation Agentic AI Loop for Engineering Design