Incentive Aware AI Regulations: A Credal Characterisation

Each language version is independently generated for its own context, not a direct translation.

🎲 De Gok van de AI: Hoe we slimme regels maken voor onbetrouwbare robots

Stel je voor dat er een grote markt is waar mensen AI-modellen (slimme computerprogramma's) verkopen. Sommige van deze modellen zijn veilig en eerlijk, maar andere zijn gevaarlijk, vooroordelig of gewoon slecht. De overheid (de Regulator) wil ervoor zorgen dat alleen de veilige modellen op de markt mogen komen.

Maar hier zit het probleem: de makers van deze AI's (de Providers) weten veel meer over hun eigen producten dan de overheid. Ze kunnen hun code verbergen, hun trainingdata geheim houden en zeggen: "Kijk, mijn AI is perfect!" terwijl ze in werkelijkheid vals spelen.

Dit artikel, geschreven door Anurag Singh en zijn collega's, lost dit op door de regelgeving te zien als een gokspel.

1. Het Probleem: De "Blinde" Regulator

Vroeger dachten regelgevers: "Als we de code van de AI mogen zien (de 'witte doos'), kunnen we controleren of het veilig is."
Maar in de echte wereld willen bedrijven hun geheimen niet delen. De regulator heeft dus alleen zwarte doos-toegang: ze zien alleen wat de AI doet, niet hoe het werkt.

Als de regulator zegt: "Je mag alleen werken als je 99% eerlijk bent," dan kan een slimme, oneerlijke maker een model bouwen dat net onder die 99% zit, of een model dat op het testmoment perfect doet, maar daarna faalt. Ze "gamen" het systeem.

2. De Oplossing: "Betalen met je Eigen Geld"

In plaats van te vragen "Is je AI veilig?", vraagt de regulator nu: "Ben jij bereid om je eigen geld in te zetten om te bewijzen dat je AI veilig is?"

Dit is het kernidee van het artikel:

De regulator biedt een vergunning (een licentie) aan.
Om deze vergunning te krijgen, moet de AI-maker een inzet doen (een bedrag betalen).
Als de AI zich gedraagt zoals beloofd, wint de maker geld (of krijgt hij een groot deel van de markt).
Als de AI faalt of vals speelt, verliest de maker zijn inzet.

De Analogie:
Stel je bent een gokker in een casino. Je zegt tegen de casino-eigenaar: "Ik heb een eerlijk spel."
De eigenaar zegt: "Oké, maar als je wilt spelen, moet je eerst €100 betalen. Als je eerlijk bent, win je duizenden. Als je valsspelt, verlies je je €100."
Een eerlijke speler is blij om te betalen, want hij weet dat hij gaat winnen. Een valsspeler durft niet te betalen, want hij weet dat hij zijn geld kwijtraakt.

3. De Wiskundige Magie: De "Convexe" Regel

Het artikel bevat een heel belangrijk wiskundig bewijs (Theorema 3.5). Dit klinkt ingewikkeld, maar de analogie is simpel:

Stel je hebt een doos met verboden gedragingen (bijvoorbeeld: "AI's die racisme tonen").

Fout: Als de lijst met verboden gedragingen "hol" is of gaten heeft, kunnen slimme makers een mix maken van twee slechte dingen die samen een "goed" resultaat lijken. Ze spelen het systeem uit.
Goed: De lijst met verboden dingen moet een vaste, gesloten vorm hebben (in de wiskunde een convex set of credal set).

De Analogie van de Vorm:
Stel je hebt een muur van bakstenen die de slechte AI's tegenhoudt.

Als de muur gaten heeft of holle plekken, kan een slimme AI zich door de gaten wringen (door twee slechte modellen te mixen).
De auteurs bewijzen dat de muur vaste, rechte lijnen moet hebben. Als de muur perfect recht en gesloten is, kan niemand eromheen. Alleen de eerlijke AI's kunnen de muur niet over, en dus mogen ze binnenkomen.

Als de regulator zijn regels niet op deze "rechte" manier opstelt, kunnen oneerlijke makers het systeem altijd omzeilen.

4. Hoe werkt het in de praktijk? (Het "Wedden"-systeem)

De auteurs laten zien hoe dit werkt met echte data (bijvoorbeeld: het herkennen van vogels op foto's).

Situatie A (Slechte AI): Een AI die alleen kijkt naar de achtergrond (bijv. "water" = "watervogel"). Deze AI is snel, maar foutief. Als de regulator een weddenschap aanbiedt, zal deze AI zijn geld verliezen omdat hij op de lange termijn faalt. Hij trekt zich terug.
Situatie B (Goede AI): Een AI die echt naar de vogel kijkt, niet naar de achtergrond. Deze AI weet dat hij goed is. Hij durft de weddenschap aan te gaan, want hij weet dat hij de vergunning zal winnen.

Het artikel toont ook aan dat als de regulator de regels niet expliciet kan uitleggen (bijvoorbeeld: "Hoeveel vooroordelen is te veel?"), ze toch een systeem kunnen bouwen waar de makers zelf hun eigen "inzet" kiezen. Als de AI eerlijk is, groeit hun winst exponentieel. Als ze oneerlijk zijn, zakken ze weg.

5. Waarom is dit belangrijk?

Vroeger dachten we: "We moeten de code van AI's zien om ze te controleren."
Dit artikel zegt: "Nee, dat hoeft niet. We kunnen een systeem maken waarbij de makers zelf bewijzen dat ze eerlijk zijn door hun eigen geld te riskeren."

Dit lost het probleem van informatie-asymmetrie op (waarbij de maker meer weet dan de toezichthouder). Het creëert een markt waar:

Slechte AI's zichzelf uitsluiten (want ze durven niet te wedden).
Goede AI's worden beloond (want ze winnen de weddenschap).

Samenvatting in één zin

De auteurs hebben een wiskundig bewezen systeem ontworpen waarbij AI-bedrijven hun eigen geld moeten inzetten om te bewijzen dat hun modellen veilig zijn; als ze oneerlijk zijn, verliezen ze alles, en als ze eerlijk zijn, winnen ze de markt.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

De snelle opkomst van Machine Learning (ML) systemen in hoog-risico domeinen (zoals kredietverlening en sociale rechtvaardigheid) vereist strenge regulering. Echter, er bestaat een fundamenteel probleem:

Informatie-asymmetrie: Modelproviders hebben meer kennis over hun modellen dan regelgevers. Providers kunnen strategisch handelen om regulering te ontduiken en hun ontwikkelingskosten te verlagen.
Beperkte toegang: Regelgevers hebben vaak slechts "black-box" toegang tot modellen (geen toegang tot gewichten, trainingdata of hyperparameters), wat traditionele "white-box" audits onmogelijk maakt.
Statistische onzekerheid: Regulering moet gebaseerd zijn op eindige steekproeven (benchmarks), wat leidt tot statistische onzekerheid.
Het doel: Een "perfecte marktopbrengst" bereiken, waarbij:
1. Niet-compliant providers zichzelf uitsluiten (niet deelnemen).
2. Compliant providers worden aangemoedigd om deel te nemen.

Bestaande hypothesetoetsen zijn vaak niet ontworpen om strategisch gedrag te voorkomen en kunnen door providers worden "gamed".

2. Methodologie

De auteurs kaderen AI-regulering als een mechanisme-ontwerpprobleem onder onzekerheid. In plaats van te proberen te bewijzen dat een model onveilig is, wordt de last van het bewijs verschoven naar de provider via een "betting" (weddenschap) mechanisme.

Kernconcepten:

Regulatie als Mechanisme: Een regelgever biedt een set licenties ( $\Pi$ ) aan. Een provider kiest een licentie $\pi$ en ontvangt een uitbetaling gebaseerd op de geobserveerde statistische bewijslast $Z$ .
Credale Sets (Imprecise Probability): De auteurs introduceren het concept van een credal set (een gesloten, convexe verzameling van waarschijnlijkheidsmaatstaven) om de set van niet-compliant verdelingen ( $P_0$ ) te karakteriseren.
Testing by Betting: Providers mogen wedden op de veiligheid van hun model. Als een provider strategisch probeert de regulatie te omzeilen (bijvoorbeeld door een mengsel van slechte modellen te gebruiken), moet het mechanisme dit detecteren en straffen.

Theoretische Kader:

Obedience (Gehoorzaamheid): Een mechanisme is gehoorzaam als niet-compliant providers geen enkele licentie kunnen kiezen die hun instapkosten ( $C$ ) dekt.
Feasibility (Haalbaarheid): Compliant providers moeten een licentie kunnen vinden die meer oplevert dan de kosten.
Implementatie: Een mechanisme is implementeerbaar als het exact de gewenste marktopbrengst realiseert (alleen compliant providers nemen deel).

3. Belangrijkste Bijdragen

A. Karakterisering van Perfecte Marktopbrengst

De centrale theoretische bevinding is Stelling 3.5:

Een regelgevingseis $R$ is implementeerbaar via een mechanisme $\Pi$ dan en slechts dan als de verzameling van niet-compliant verdelingen $P_0$ een credal set is (d.w.z. gesloten en convex).

Implicatie: Als $P_0$ niet convex is, kunnen strategische providers een mengsel van niet-compliant modellen creëren dat buiten $P_0$ valt, waardoor ze de regulatie kunnen omzeilen zonder hun model te verbeteren.
Voor drempel-waarde regulaties (bijv. $r(P) > \tau$ ) betekent dit dat de metriek $r$ quasi-convex en lager semi-continu moet zijn.

B. Karakterisering van Gehoorzame Licenties

De auteurs leiden een expliciete vorm af voor de set van alle gehoorzame licenties ( $\Pi^{ob}_{P_0}$ ):
$\Pi^{ob}_{P_0} = \{ \pi : Z \to [0, R] \mid \sup_{P \in P_0} \mathbb{E}_P[\pi(Z)] \leq C \}$
Dit betekent dat een licentie alleen toegestaan is als de verwachte uitbetaling onder alle mogelijke niet-compliant scenario's (de ergste case binnen de credale set) de instapkost niet overschrijdt.

C. Optimale Responsen van Providers

Risiconeutrale providers: Hun optimale strategie is een "all-or-nothing" weddenschap (een Neyman-Pearson test). Ze zetten alles in op gebeurtenissen waar hun model significant beter presteert dan de ergste compliant verdeling.
Risicovrije (risk-averse) providers: Om extreme weddenschappen te voorkomen, maximaliseren deze providers hun logaritmische nut. Hun optimale licentie is een afgekapt likelihood-ratio tussen hun eigen verdeling $Q$ en de "ergste" compliant verdeling $P^*$ binnen de credale set.

D. Praktische Implementatie (Implicit Credal Sets)

Wanneer de credale set niet expliciet bekend is (bijv. bij complexe eerlijkheidseisen), gebruiken de auteurs het "Testing by Betting" framework. Providers kiezen adaptieve wedstrategieën ( $\lambda$ ) op basis van sequentiële data. Dit maakt het mogelijk om regulering toe te passen zonder dat de regelgever de volledige set van niet-compliant verdelingen hoeft te modelleren.

4. Resultaten en Experimenten

De auteurs valideren hun framework met drie experimenten:

Strategisch Spelen (Gaming):
- Een "naive" regelgever met een niet-convexe set van verboden verdelingen wordt succesvol omzeild door een provider die een mengsel van slechte modellen gebruikt.
- Een regelgever die een credale set gebruikt, detecteert dit mengsel correct en dwingt de provider tot zelfuitsluiting.
Perfecte Marktopbrengst op Waterbirds Dataset:
- Situatie: Een classificatietask waarbij modellen vaak vertrouwen op spurious features (achtergronden).
- Resultaat: Een compliant model (getraind met Group-DRO) ziet zijn licentiewaarde exponentieel groeien tot het maximum, terwijl een niet-compliant model (ERM) faalt om de instapkost terug te verdienen. De licentie waarde wordt voornamelijk gedreven door prestaties op "moeilijke" voorbeelden (counter-spurious).
Implicit Regulering (Eerlijkheid):
- Toepassing op demografische pariteit zonder expliciete credale set.
- Providers kunnen wedden op hun eerlijkheid. Zelfs providers die net onder de drempel vallen (borderline non-compliant) sluiten zichzelf uit, terwijl compliant providers deelnemen. Dit toont aan dat expliciete modellering van de credale set niet altijd nodig is.

5. Betekenis en Conclusie

Dit artikel biedt een fundamentele theoretische basis voor het ontwerpen van aansporingsbewuste AI-regulering.

Theoretische Unie: Het verbindt mechanisme-ontwerp met onnauwkeurige waarschijnlijkheid (Imprecise Probability), wat een nieuwe kijk geeft op hoe regelgeving onder onzekerheid kan worden ontworpen.
Praktische Toepasbaarheid: Het biedt een methode om "black-box" modellen te reguleren zonder volledige transparantie te eisen, door providers zelf te laten wedden op de kwaliteit van hun modellen.
Robuustheid: Door te eisen dat de set van niet-compliant verdelingen convex is, wordt voorkomen dat strategische actoren de regulatie kunnen omzeilen door het mixen van modellen.
Toekomst: Het werk suggereert dat toekomstige AI-wetgeving (zoals de EU AI Act) mechanistische benaderingen kan adopteren die vertrouwen op "testing by betting" om naleving te garanderen zonder kostbare, exhaustieve audits.

Kortom, de auteurs bewijzen dat alleen regulering die gebaseerd is op convexe (credale) sets van risico's kan leiden tot een perfecte markt waar alleen veilige en eerlijke AI-systemen worden gedeployeerd.