From Bandit Regret to FDR Control: Online Selective Generation with Adversarial Feedback Unlocking

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat onzekere assistent hebt die je helpt met vragen beantwoorden. Deze assistent is een Kunstmatige Intelligentie (AI), zoals een grote taalmodel (LLM). Hij kan prachtige verhalen vertellen en ingewikkelde vragen oplossen, maar hij heeft een vervelende gewoonte: hij hallucineert. Dat betekent dat hij soms dingen zegt die klinken als waarheid, maar die volledig verzonnen zijn.

In de echte wereld, bijvoorbeeld in een ziekenhuis of bij juridisch advies, is het gevaarlijk als je assistent zomaar een fout antwoord geeft. Je wilt dat hij eerlijk zegt: "Ik weet het niet, vraag het maar aan een mens," in plaats van een gevaarlijk verzonnen feit te verzinnen.

Dit paper introduceert een nieuwe methode genaamd ExSUL. Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

1. Het Probleem: De "Gokker" en de "Onzichtbare Jury"

Stel je voor dat je een gokker bent in een casino. Je hebt een rij met 100 verschillende knoppen (elk een andere manier om een vraag te beantwoorden).

Het oude probleem: In de echte wereld krijg je vaak geen volledige feedback. Als je een antwoord geeft, zegt de gebruiker misschien alleen maar "Thumbs up" (goed) of "Thumbs down" (fout). Je weet niet waarom het fout was, of of het antwoord eigenlijk wel goed was maar je gewoon een "thumbs down" kreeg.
De uitdaging: De gebruiker kan ook een "boze speler" zijn die probeert jou te misleiden door vragen te stellen die je net op het verkeerde been zetten.

De meeste bestaande methoden werken alsof je in een stil laboratorium zit waar je na elke poging een gedetailleerd rapport krijgt. Maar in de echte wereld heb je dat niet. Je hebt alleen een duimpje.

2. De Oplossing: ExSUL (De Slimme Gokker)

ExSUL is een slimme strategie om deze gokker (de AI) te leren hoe hij moet kiezen tussen "Antwoorden" en "Ik weet het niet" (afzien), zelfs met die beperkte "duimpje"-feedback.

De auteurs gebruiken twee slimme trucs:

Truc 1: De "Regel van de Duim" (Van Regret naar FDR)

In de wereld van wiskunde en gokken heet het als je een slechte keuze maakt en er spijt van hebt, "regret" (spijt).
De auteurs hebben een magische formule bedacht die zegt: "Als we onze totale spijt over de tijd klein houden, dan houden we automatisch ook het aantal fouten onder controle."

Stel je voor dat je een chef-kok bent die wil voorkomen dat er giftige champignons in de soep komen (de fouten). In plaats van elke champignon te testen (wat te lang duurt), zeg je: "Als ik maar zorg dat ik niet te vaak de verkeerde ingrediënten kies, dan zal er vanzelf geen giftige champignon in de soep zitten."
ExSUL zorgt ervoor dat de AI zich aan een veiligheidsdrempel houdt. Als de kans op een fout te groot is, zegt de AI: "Ik ga niet antwoorden."

Truc 2: Feedback Ontgrendelen (Het Magische Raadsel)

Dit is de coolste truc. Normaal gesproken, als je een knop indrukt en een "thumbs down" krijgt, weet je alleen dat die ene knop fout was.
Maar ExSUL kijkt naar de structuur van de AI. Het weet: "Als deze knop (met een hoge zekerheid) een fout antwoord gaf, dan zullen alle andere knoppen met een nog lagere zekerheid waarschijnlijk ook fout zijn."

Dit noemen ze "Feedback Unlocking" (Feedback Ontgrendelen).

Vergelijking: Stel je voor dat je een raadsel oplost. Als je de sleutel voor de zware kluis vindt, weet je automatisch dat je ook de sleutel voor de lichte kast hebt, omdat ze aan elkaar hangen.
ExSUL gebruikt de ene "thumbs down" om te leren over veel andere mogelijke antwoorden tegelijk. Hierdoor leert de AI veel sneller dan andere methoden, zelfs als hij maar weinig informatie krijgt.

3. Wat gebeurt er in de praktijk?

De auteurs hebben ExSUL getest in verschillende situaties:

Stabiele wereld: Vragen komen uit een normaal boek.
Veranderende wereld: De vragen komen eerst uit een boek over geschiedenis, en plotseling schakelt de AI over naar vragen over ruimtevaart (dit heet "distribution shift").
Boze tegenstander: Een slimme gebruiker probeert de AI expres te laten falen door vragen te stellen die net op de rand van de waarheid zitten.

Het resultaat?
ExSUL slaagt erin om de AI te dwingen om zelden fouten te maken (het aantal hallucinaties blijft laag, onder de gewenste limiet), terwijl hij toch voldoende antwoorden blijft geven. Andere methoden ofwel geven te veel fouten, of ze worden zo bang dat ze bijna nooit meer iets zeggen (ze "afzien" van alles).

Samenvatting in één zin

ExSUL is als een super-veilige, slimme assistent die, zelfs als hij maar een simpel duimpje krijgt als feedback, leert om niet te gokken als hij niet zeker is, en zo voorkomt dat hij je bedriegt met verzonnen feiten, zelfs als de wereld om hem heen verandert of als iemand hem expres probeert te misleiden.

Het is een grote stap naar het maken van AI die we kunnen vertrouwen in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Interactieve generatieve systemen, zoals Large Language Models (LLMs), worden steeds vaker ingezet in real-world toepassingen. Een groot risico is dat deze systemen onbetrouwbare of valse antwoorden genereren (hallucinaties). Selectieve generatie (selective generation) is een strategie om dit risico te mitigeren door het systeem alleen een antwoord te laten geven wanneer het er zeker van is; anders geeft het "Ik weet het niet" (IDK) terug.

De uitdagingen in bestaande methoden zijn:

Partiële feedback: In real-world scenario's krijgen systemen zelden de volledige grondwaarheid (ground truth) te zien. In plaats daarvan ontvangen ze vaak beperkte feedback, zoals een "thumbs up/down" van een gebruiker.
Niet-stationaire en adversariële omgevingen: De data-distributie kan veranderen (distribution shift) en gebruikers (of tegenstanders) kunnen strategisch feedback geven om het systeem te misleiden. Bestaande methoden voor selectieve generatie vertrouwen vaak op stochastische aannames (i.i.d. data) en vereisen volledige feedback, wat ze ongeschikt maakt voor deze dynamische omgevingen.
Gebrek aan formele garanties: Veel huidige methoden gebruiken heuristieken zonder formele garanties op het beheersen van de False Discovery Rate (FDR), het percentage van de gegeven antwoorden dat foutief is.

Methodologie: ExSUL

De auteurs stellen ExSUL (Online Selective Generation with Feedback Unlocking) voor, een nieuw online leerframework dat het probleem van selectieve generatie reduceert tot een adversariële bandit-probleem met partiële feedback.

De kern van de methode bestaat uit drie technische pijlers:

Reductie naar Adversariële Bandits:
- Het probleem wordt gemodelleerd als een spel tussen een leerder en een tegenstander (adversary).
- De "armen" in het bandit-probleem zijn de verschillende drempelwaarden ( $\tau$ ) voor de selectiefunctie.
- De leerder kiest een drempel, genereert een antwoord (of abstineert), en ontvangt partiële feedback ( $e_t$ ) over de juistheid.
- Een verliesfunctie ( $\ell_t$ ) wordt ontworpen die zowel de inefficiëntie (te vaak abstineren) als de FDR-risico (foutieve antwoorden geven) straft.
Regret-naar-FDR Conversie Lemma:
- De auteurs introduceren een nieuw wiskundig lemma dat de regret (spijt) van een bandit-algoritme omzet in een bovengrens voor de FDR.
- Dit lemma bewijst dat als een algoritme de regret sublineair laat groeien, de gemiddelde FDR-risico convergeert naar nul (of een gewenst niveau $\alpha$ ), zelfs onder partiële feedback. Dit maakt het mogelijk om bestaande regret-minimalisatie-algoritmen direct toe te passen voor FDR-controle.
Feedback Unlocking (Feedback Ontgrendeling):
- Dit is de meest innovatieve bijdrage. Bij standaard partiële feedback (zoals bij Exp3-IX) leert de algoritme alleen van de geselecteerde arm.
- De auteurs exploiteren echter de unieke structuur van selectieve generatie: de selectiefunctie is monotoon. Als een model abstineert bij een lage drempel, zal het ook abstineren bij een hogere drempel voor hetzelfde input.
- Door deze structuur te gebruiken, kan de leerder extra leerinformatie "ontgrendelen" uit de partiële feedback. Als een antwoord wordt gegeven of geweigerd, levert dit impliciete informatie op over hoe andere drempelwaarden (andere "armen") zouden hebben gereageerd.
- Ze passen het Exp3-IX algoritme aan met een nieuwe schatter voor het verlies die gebruikmaakt van deze "unlocking". Dit resulteert in een veel efficiënter leerproces dan standaard bandit-methoden.

Belangrijkste Bijdragen

ExSUL Framework: Een nieuw algoritme voor online selectieve generatie dat werkt onder partiële feedback en adversariële omstandigheden.
Theoretische Garantie: Bewijs dat ExSUL een regretgrens van $O(\sqrt{T \ln |H|})$ bereikt. Dit is even efficiënt als methoden met volledige feedback, ondanks het ontbreken van grondwaarheid.
Regret-to-FDR Lemma: Een theoretisch verband dat toelaat om elke regret-minimalisatie-algoritme te gebruiken voor FDR-controle, wat een brug slaat tussen online learning en risicobeheer.
Feedback Unlocking: Een strategie die de sample-efficiëntie drastisch verbetert door de monotonie van selectieve generatie te benutten, waardoor de leerder meer informatie haalt uit beperkte feedback.

Resultaten

De auteurs evalueren ExSUL empirisch op diverse datasets (TriviaQA, Natural Questions) en modellen (GPT-3.5-turbo, LLaMA3.1) in vier omgevingen:

Stochastisch: ExSUL controleert de FDR nauwkeurig rond de gewenste drempel ( $\alpha$ ) en presteert beter dan baselines zoals Exp3-IX-SG.
Distribution Shift: Bij plotselinge veranderingen in de data-distributie (bijv. van TriviaQA naar Natural Questions) behoudt ExSUL de controle over de FDR, terwijl andere methoden falen.
Interactief: In dialogen met meerdere rondes past ExSUL zich dynamisch aan en voorkomt het hallucinaties terwijl het een redelijk hoog percentage antwoorden blijft geven (lage inefficiëntie).
Adversariële Omgeving: Zelfs wanneer een slimme tegenstander probeert het systeem te manipuleren door strategisch moeilijke vragen te stellen, blijft ExSUL robuust en controleert het de FDR.

In alle scenario's slaagt ExSUL erin om de False Discovery Rate onder de gewenste drempel te houden, terwijl het selectie-inefficiëntie (het percentage afgekeurde vragen) laag blijft houden, wat betekent dat het systeem nuttige antwoorden blijft geven.

Betekenis en Impact

Dit werk is significant omdat het een oplossing biedt voor een van de grootste obstakels bij het inzetten van LLMs in kritieke toepassingen: betrouwbaarheid onder onzekere omstandigheden.

Het maakt het mogelijk om generatieve AI-systemen te trainen in realistische omgevingen waar geen perfecte grondwaarheid beschikbaar is.
Het biedt formele garanties (FDR-controle) in plaats van alleen heuristische vertrouwensscores.
De techniek van "feedback unlocking" opent nieuwe perspectieven voor het verbeteren van leer-efficiëntie in partiële feedback scenario's, niet alleen voor taalmodellen maar mogelijk voor andere selectieve leerproblemen.

Kortom, ExSUL biedt een robuust, theoretisch onderbouwd kader om hallucinaties in generatieve AI te beheersen, zelfs wanneer de feedback imperfect en vijandig is.

From Bandit Regret to FDR Control: Online Selective Generation with Adversarial Feedback Unlocking

1. Het Probleem: De "Gokker" en de "Onzichtbare Jury"

2. De Oplossing: ExSUL (De Slimme Gokker)

Truc 1: De "Regel van de Duim" (Van Regret naar FDR)

Truc 2: Feedback Ontgrendelen (Het Magische Raadsel)

3. Wat gebeurt er in de praktijk?

Samenvatting in één zin

Probleemstelling

Methodologie: ExSUL

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation