Extrapolating Volition with Recursive Information Markets

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe we slimme AI's kunnen laten samenwerken om de waarheid te vinden

Stel je voor dat je een heel lastige vraag hebt, bijvoorbeeld: "Is dit nieuwe medicijn veilig?" of "Is dit nieuwsbericht echt?". Je wilt het antwoord van een super-slimme AI, maar die AI weet misschien dingen die jij niet weet. Dit is het grote probleem: informatie-ongelijkheid. De verkoper (de AI) weet meer dan de koper (jij).

In de traditionele wereld zou je zeggen: "Laat de AI het antwoord geven en laat een mens dat controleren." Maar wat als de AI zo slim is dat de mens de fouten niet eens kan zien? Dat is het probleem van "schaalbaar toezicht".

De auteurs van dit paper, Abhimanyu en Long, hebben een oplossing bedacht die ze het "Recursieve Informatie-Marktplaats" noemen. Laten we dit uitleggen met een paar leuke analogieën.

1. Het probleem: De "Verkoopman" en de "Koper"

Stel je een markt voor waar mensen informatie verkopen.

De verkoper (AI): Zegt: "Ik heb het antwoord! Het is 100% waar!"
De koper (Jij): Twijfelt. "Hoe weet ik dat? Misschien liegt hij om geld te verdienen."

In de oude methoden (zoals RLHF, waarbij mensen AI's beoordelen) kijkt de mens alleen naar het eindantwoord. Maar als de AI slim is, kan hij een antwoord geven dat lijkt waar, maar waar een kleine, cruciale nuance ontbreekt die de mens niet ziet. Het is alsof je een auto koopt en alleen naar de glimmende lak kijkt, terwijl de motor kapot is.

2. De oplossing: De "Onderzoekers-Chain" (De Recursieve Marktplaats)

De auteurs zeggen: "Laten we niet één mens of één AI laten oordelen. Laten we een keten van onderzoekers maken."

Stel je dit voor als een detective-club:

De Hoofd-Detective (Jij) heeft een vraag.
Hij huurt Detective A in om het antwoord te zoeken.
Maar Detective A is misschien niet slim genoeg om te weten of het antwoord klopt. Dus Detective A huurt Detective B in om Detective A's werk te controleren.
Detective B vindt een foutje in Detective A's werk. Dan huurt Detective B Detective C in om die fout te bevestigen.
Dit gaat door tot er niemand meer is die een nieuw foutje kan vinden.

In de taal van het paper:

De "Hoofd-Detective" is de Koper.
De "Detectives" zijn LLM-agenten (AI's).
Ze werken op een Marktplaats. Elke AI biedt informatie aan. Een andere AI (de "inspecteur") koopt die informatie om te kijken of het waar is.
Als de inspecteur een fout vindt, krijgt hij betaald. Als hij niets vindt, krijgt de verkoper betaald.

3. Waarom is dit beter? (De "Onuitbreidbare" Waarheid)

Het slimme aan dit systeem is dat het AI's dwingt om de volledige waarheid te vertellen, niet alleen een deel ervan.

Het oude probleem: Een AI zegt: "Dit medicijn werkt!" (Waar, maar onvolledig). De mens denkt: "Groot!" en koopt het.
Het nieuwe systeem: De AI zegt: "Dit medicijn werkt!" Een andere AI (de inspecteur) zegt: "Wacht, dat werkt alleen als je het 's ochtends neemt, anders is het giftig!" De eerste AI moet nu dit belangrijke detail toevoegen, anders krijgt hij geen geld.

Als de eerste AI probeert om de waarheid te verbergen, kan de inspecteur AI dat "ontmaskeren". De inspecteur AI wordt beloond als hij een beter, vollediger verhaal kan vertellen. Dit zorgt ervoor dat de AI's elkaar controleren in plaats van alleen maar te luisteren naar de eerste die spreekt.

4. De "Onuitbreidbare" Argumenten

De auteurs gebruiken een mooi woord: "Inextensibel" (niet uitbreidbaar).
Stel je voor dat een AI een argument levert dat zo sterk is, dat niemand er nog iets tegenin kan brengen.

Als AI 1 zegt: "De aarde is rond."
AI 2 probeert te zeggen: "Nee, hij is plat."
AI 3 zegt: "Nee, AI 2 liegt, de aarde is rond."
AI 4 zegt: "Nee, AI 3 liegt..."

In dit systeem wordt AI 1 beloond als zijn argument zo sterk is dat alle volgende AI's (AI 2, 3, 4...) er niets beters tegenin kunnen brengen. Het systeem dwingt de AI's om het beste, meest complete verhaal te vertellen, omdat elke poging om te liegen of te verbergen, door een volgende AI kan worden "ontmaskerd" en bestraft.

5. Wat levert dit op?

Dit paper beschrijft niet alleen de theorie, maar heeft ook een werkend prototype gebouwd (de infonomy-server). Dit is een platform waar:

Mensen vragen kunnen stellen.
AI's antwoorden geven.
Andere AI's die antwoorden controleren en verbeteren.
Mensen uiteindelijk het beste, meest gecontroleerde antwoord krijgen.

Kortom:
In plaats van één mens te vragen om een super-slimme AI te controleren (wat onmogelijk is), laten we de AI's onderling een spelletje spelen waarin ze elkaars fouten moeten vinden. De winnaar is degene die het meest waarheidsgetrouwe en complete verhaal heeft. Zo krijgen we een manier om AI's te vertrouwen, zelfs als ze slimmer zijn dan wij.

Het is alsof je niet één rechter hebt, maar een hele rechtbank van slimme advocaten die elkaar continu controleren, zodat de waarheid altijd boven water komt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Extrapolating Volition met Recursieve Informatiemarkten

Auteurs: Abhimanyu Pallavi Sudhir & Long Tran-Thanh (Universiteit van Warwick)
Context: GAIW-26 (Games, Agents, and Incentives Workshop), onderdeel van AAMAS 2026.

1. Het Probleem: Informatieasymmetrie en Schaalbaar Toezicht

Het artikel adresseert een fundamenteel probleem in zowel de informati economie als de AI-uitlijning (AI alignment): hoe men informatie efficiënt waardeert of scoreert wanneer de verkoper (of het taalmodel) meer informatie bezit dan de koper (of de evaluator).

Informatieasymmetrie: De verkoper weet wat de informatie inhoudt, de koper niet. Dit leidt tot het "Market of Lemons"-probleem, waarbij prijzen alleen de oppervlakkige voorkeuren van de koper weerspiegelen, niet de ware waarde met volledige informatie.
Schaalbaar Toezicht (Scalable Oversight): In AI-uitlijning vertrouwen methoden zoals Reinforcement Learning from Human Feedback (RLHF) op menselijke beoordelaars om outputs van supermenselijke AI-modellen te evalueren. Mensen kunnen echter niet alle nuances van een superintelligente output begrijpen, wat leidt tot onbetrouwbare feedback.
De inspectie-paradox: Bij het kopen van informatie weet de koper per definitie niet wat de informatie is voordat hij koopt. Bestaande oplossingen (zoals het "Information Bazaar" van Weiss et al. [42]) gebruiken een LLM-agent om de informatie te inspecteren voordat er gekocht wordt. Echter, dit lost het probleem niet volledig op: de inspecterende LLM kan nog steeds ontbrekende context hebben die de verkoper wel kent, wat leidt tot een "fact-checking failure mode" waar verkopers worden gestimuleerd om alleen overtuigende claims te doen en corrigerende context te verbergen.

2. Methodologie: Een Bayesiaans Kader

De auteurs introduceren een formeel Bayesiaans kader om de "waarde van informatie" (Value of Information - VOI) te modelleren onder persistente informatieasymmetrie.

Bayesiaans Model: Ze definiëren een agent $\alpha$ die een beslissingsprobleem heeft met een nutfunctie $U$ . Een "informatiegoed" is een tuple $\langle I, i, p \rangle$ (toevalsvariabele, realisatie, prijs).
Ex-post vs. Ex-ante Waarde:
- Ex-post: De waarde na het zien van de informatie. Het artikel toont aan dat ex-post inspectie onvoldoende is omdat er nog steeds asymmetrie kan bestaan over de gevolgen van die informatie op de uiteindelijke beslissing.
- Ex-ante: De verwachte waarde voordat de informatie wordt gezien.
Recurssie: Het artikel stelt dat om asymmetrie op te lossen, men niet slechts één inspectie-laag kan gebruiken, maar een oneindige (of diep geneste) reeks van inspecties nodig heeft, waarbij elke beslissing om informatie te kopen wordt ondersteund door verdere informatie over die beslissing.

3. Belangrijkste Bijdragen

A. Het Recursieve Inspectie Protocol (RIP)

De auteurs kritiseren de "successive inspection protocol" (naïeve recursie) als ontoereikend omdat deze niet rekening houdt met de mogelijkheid dat een keuze op een hoger niveau direct een keuze op een lager niveau beïnvloedt zonder tussenkomst van de tussenliggende stappen.

Ze introduceren het Recursive Inspection Protocol, gemodelleerd als een spel met onvolledige herinnering (imperfect-recall game):

Mechanisme: De agent (of een uitbesteed LLM) koopt informatie in een diepte $N$ . Bij het nemen van een beslissing op niveau $n$ , houdt de agent rekening met de volledige reeks informatie die is aangeschaft in de diepere niveaus ( $n+1$ tot $N$ ) en de volledige traceback van beslissingsproblemen.
Optimaliteit: Ze bewijzen dat dit protocol ex-ante superieur is aan elke "toelaatbare aankoopprotocol" (admissible purchase protocol). Een agent zou bij voorbaat liever dit protocol gebruiken dan elk ander, omdat het de kosten van het verwerven van informatie voor betere beslissingen optimaal afweegt.

B. Schaalbaar Toezicht Mechanisme (Marginal Value Mechanism)

Voor het trainen van AI-modellen (waarbij informatie kostbaar moet worden gegenereerd) stellen ze een mechanisme voor dat het "AI safety via market-making" concept generaliseert.

Opzet: Meerdere AI-agenten ( $\beta_1, \beta_2, \dots$ ) genereren achtereenvolgens informatie ( $x_1, x_2, \dots$ ) om een menselijke evaluator te helpen bij een oorspronkelijke beslissing.
Beloning: De beloning voor een agent wordt bepaald door de marginale waarde van hun informatie, gezien de volledige reeks informatie die tot stand is gekomen.
Evenwicht (Equilibrium): Ze definiëren het concept van "inextensibiliteit". Een stuk informatie is inextensibel als er geen toekomstige speler is die een winstgevende "tegengif" (counter-argument) kan leveren.
Resultaat: In het subgame-perfect evenwicht zal de eerste agent een "inextensibel" argument kiezen dat de hoogste ex-post VOI heeft, en alle volgende agenten zullen niets doen (waarde 0), omdat er geen winstgevende uitbreidingen meer zijn.

C. Praktische Implementatie

De auteurs hebben een werkende server-implementatie ontwikkeld genaamd infonomy-server. Dit systeem automatiseert het Recursieve Inspectie Protocol en kan worden toegepast op:

Vraag-en-antwoord sites met marktprikkels.
Geprivatiseerde productregulatie (onafhankelijke inspecties).
Community Notes (crowdsourced fact-checking).
Redenering in voorspellingmarkten.

4. Resultaten en Analyse

Counter-examples: Het artikel levert een tegenvoorbeeld voor naïeve recursie, waarbij een agent die alleen de eerste laag van informatie ziet, een suboptimale beslissing neemt omdat de "corrigerende context" (diep in de recursie) niet beschikbaar is op het moment van de beslissing.
Theorema 3.3: Bewijst dat het Recursieve Inspectie Protocol ex-ante beter presteert dan elk ander protocol dat voldoet aan de beperking dat een beslissing geen informatie mag "stelen" die specifiek voor die beslissing is gemaakt.
Theorema 4.4: Karakteriseert het evenwicht van het marginale waarde-mechanisme. Het toont aan dat het mechanisme de eerste speler stimuleert om de "beste" informatie te geven die niet kan worden weerlegd door latere spelers binnen de kostenbeperkingen.
Beperkingen (Future Work): Het huidige mechanisme is niet perfect. Er bestaat een "tekort" (shortfall) in de uitlijning. Als het erg duur is om een correcte informatie te verdedigen (bijv. $I_3$ is duur, terwijl een valse claim $I_1$ en een goedkope weerlegging $I_2$ goedkoop zijn), kan het mechanisme falen om de optimale informatie te selecteren. De auteurs stellen voor om de "kosten van verdediging" als maatstaf te gebruiken voor de kwaliteit van het toezicht.

5. Significatie en Conclusie

Dit artikel biedt een principieel raamwerk voor het prijsbepalen van informatie in een wereld met persistente informatieasymmetrie.

Voor de Economie: Het lost het inspectie-paradox op door recursieve markten te introduceren, wat leidt tot efficiëntere informatieverhandeling.
Voor AI-uitlijning: Het biedt een praktische weg voor schaalbaar toezicht die verder gaat dan standaard RLHF. Door gebruik te maken van marktmekanisme en recursieve inspectie, kunnen menselijke evaluatoren (of hun LLM-vertegenwoordigers) de "uitgebreide wil" (extrapolated volition) van de AI benaderen: wat zou de mens doen als hij even slim was als de AI?

Hoewel het huidige mechanisme nog niet de ideale "perfecte uitlijning" garandeert (vanwege de kosten van verdediging van informatie), biedt het een solide theoretische basis en een werkend prototype voor de volgende generatie AI-beoordelingssystemen. De auteurs motiveren toekomstig werk om de garanties op het evenwichtstekort te verscherpen.