Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme persoonlijke assistent hebt, een soort digitale butler die luistert naar je commando's: "Zet de lichten aan," "Wat is het weer?" of "Boek een tafel."

Om deze assistent snel en goedkoop te houden, wil je niet elke keer een dure supercomputer (een groot AI-model) aanroepen. In plaats daarvan heb je een cache (een geheugenbankje) vol met antwoorden die je al eerder hebt berekend. Als de assistent denkt dat hij weet wat je bedoelt, pakt hij het antwoord uit het geheugenbankje.

Het probleem: Wat als hij het verkeerd begrijpt? Als hij denkt dat je "zet de lichten aan" zegt, maar jij bedoelde "zet de verwarming aan", en hij doet het verkeerde zonder te twijfelen, kan dat vervelend of zelfs gevaarlijk zijn.

De oplossing uit dit papier: Hoe weten we precies wanneer het veilig is om het antwoord uit het geheugenbankje te halen, en wanneer we beter de dure supercomputer kunnen vragen?

Dit papier is als een grote testkeuring voor verschillende methoden om die veiligheid te garanderen. De auteurs hebben negen verschillende wiskundige regels (methodes) getest om te bepalen: "Hoe zeker moet ik zijn voordat ik een gok waag?"

Hier zijn de belangrijkste lessen, vertaald naar alledaagse taal:

1. De "Gokker" vs. De "Voorzichtige Rekenaar"

Stel je voor dat je een gokker bent die probeert te voorspellen of een munt op 'kop' of 'munt' valt.

De oude methode (Hoeffding): Deze methode is als een super-voorzichtige rekenaar die zegt: "Ik ga ervan uit dat de munt altijd op de slechtst mogelijke manier valt, zelfs als dat onmogelijk is." Dit is veilig, maar het betekent dat je heel weinig mag gokken. Je moet bijna 100% zeker zijn voordat je iets doet.
De nieuwe methode (Betting/WSR): Dit is als een slimme gokker die kijkt naar de eerdere worpen. Als hij ziet dat de munt vaak op 'kop' valt, past hij zijn strategie aan. Hij wordt slimmer en sneller. In dit papier bleek dat deze "slimme gokker" (de Betting-methode) veel meer vragen kan beantwoorden uit het geheugenbankje, terwijl hij nog steeds even veilig blijft.

2. De "Leerling" die een "Meester" heeft (Transfer Learning)

Soms heb je heel weinig data. Stel je voor dat je een nieuwe taal moet leren, maar je hebt maar 10 zinnen om te oefenen. Dat is te weinig om zeker te zijn.

De oplossing: Wat als je een vriend hebt die die taal al perfect spreekt? Je kunt zijn kennis gebruiken om je te helpen beginnen.
De nieuwe uitvinding (Transfer-Informed Betting): Dit papier introduceert een methode waarbij de assistent eerst kijkt naar de ervaring van een "meester" (een ander, groter systeem) voordat hij zelf begint te gokken.
- Voorbeeld: Als je assistent nog nooit een vraag over "weer" heeft gezien, maar de "meester" wel, dan start de assistent met een voorsprong. Hij hoeft niet bij nul te beginnen. Dit werkt wonderwel goed als je weinig data hebt (zoals bij de NyayaBench-test), waardoor de assistent veel eerder veilig kan werken dan zonder deze hulp.

3. De "Lijst" vs. De "Enkele Keuze"

Er is een andere populaire methode in de wereld van AI die zegt: "Ik geef je een lijstje met 3 mogelijke antwoorden, één daarvan is wel goed."

Het probleem: Voor een cache werkt dat niet. Je kunt niet "licht A, B of C" doen. Je moet één keuze maken.
De conclusie: Dit papier laat zien dat de methodes die ze testen (die zorgen voor één veilig antwoord) veel beter zijn voor dit specifieke doel dan de methodes die een lijstje geven. Het is het verschil tussen een menukaart met 3 opties en een chef die zegt: "Ik ga dit specifieke gerecht maken, en ik garandeer dat het goed smaakt."

4. Het "Vertrouwens-Model" (Progressive Trust)

Dit is misschien wel het coolste deel. Stel je voor dat je een nieuwe werknemer (de assistent) inhuurt.

Begin: Je vertrouwt hem niet. Hij moet elke beslissing laten controleren door de baas (de dure AI).
Midden: Naarmate hij meer oefent (meer data verzamelt), wordt zijn "vertrouwenscertificaat" sterker. Hij mag nu 60% van de beslissingen zelf nemen.
Einde: Na veel oefening krijgt hij een "autonoom certificaat". Hij mag 94% van de beslissingen zelf nemen, omdat de wiskunde garandeert dat hij zelden fouten maakt.

De auteurs laten zien dat met hun nieuwe methodes (vooral de "slimme gokker" en de "meester-hulp"), je veel sneller van "beginner" naar "autonoom expert" gaat dan met de oude methodes.

Samenvatting in één zin

Dit papier biedt een nieuwe, slimmere manier om te berekenen wanneer een AI-assistent veilig genoeg is om zelf te werken, zodat hij sneller en goedkoper kan werken zonder dat je bang hoeft te zijn dat hij de verkeerde dingen doet. Ze hebben bewezen dat door slim te "gokken" op basis van eerdere ervaringen, je veel meer uit je systeem kunt halen dan met de oude, trage regels.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting", vertaald en samengevat in het Nederlands.

Titel

Cross-Domain Uncertainty Quantification voor Selectieve Voorspelling: Een Omvattende Ablatie van Grenzen met Transfer-Informed Betting

1. Probleemstelling

Het paper adresseert het veiligheidsprobleem bij agentische AI-systemen (zoals spraakassistenten en slimme thuiscontrollers) die gebruikmaken van intent-caching.

Context: Systemen proberen herhaalde queries te cacheën om dure Large Language Model (LLM)-beproevingen te vermijden.
Risico: Een "unsafe cache hit" treedt op wanneer de classifier een query verkeerd classificeert, maar het systeem toch een cache-antwoord serveert. Dit kan leiden tot foutieve acties, vooral bij hoog-risico queries (financiële transacties, apparaatbesturing).
Huidige aanpak: Selectieve voorspelling gebruikt een vertrouwensdrempel ( $\tau$ ): alleen cacheën als de classifier's zekerheid boven $\tau$ ligt. Eerdere methoden kiezen $\tau$ empirisch zonder statistische garanties.
Doel: Het vinden van een minimale drempel $\tau^*$ die de risico-acceptatie ( $\alpha$ ) garandeert (bijv. <10% onveilige hits) met een hoge waarschijnlijkheid ($1-\delta$), zelfs bij een beperkt aantal kalibratie-voorbeelden (finite-sample setting).

2. Methodologie

De auteurs presenteren een systematische ablatie van negen families van eindige-steekproefgrenzen voor risicogestuurde voorspelling (RCPS). Ze combineren concentratie-ongelijkheden met correcties voor meervoudige toetsing.

A. Kerncomponenten

Concentratie-ongelijkheden:
- Hoeffding: Basislijn, distributie-vrij, maar vaak te conservatief.
- Empirical Bernstein: Gebruikt variantie van de verliezen voor strakkere grenzen bij accurate classifiers.
- Clopper-Pearson: Exacte binomiale grens voor binaire verliezen.
- Betting-based (WSR): Gebruikt "Testing by Betting" (Waudby-Smith & Ramdas, 2024) om een vermogensproces (supermartingaal) te bouwen dat zich aanpast aan de waargenomen verdeling.
- Wasserstein DRO & CVaR: Voor robustheid tegen distributieveranderingen en tail-risico's.
- PAC-Bayes: Gebruikt een prior uit een bron-domein.
Meervoudige Toetsing (Multiple Testing):
- Union Bound: Deelt het $\delta$ -budget over alle $K$ drempels (kostbaar: $\ln K$ factor).
- Learn Then Test (LTT): Test drempels in aflopende volgorde (monotoon). Hierdoor kan het volledige $\delta$ -budget per test worden gebruikt, waardoor de $\ln K$ -straf wordt geëlimineerd.
Nieuwe Methode: Transfer-Informed Betting (TIB)
- Dit is de theoretische kernbijdrage. Het combineert WSR-betting met cross-domein transfer.
- Probleem: Standaard WSR heeft een "koude start" (oninformatieve initiële schattingen), wat de eerste ~20 observaties verspillen.
- Oplossing: TIB "warm-starts" het vermogensproces met de risicoprofiel (gemiddelde en variantie) van een data-rijke bron-domein (bijv. MASSIVE dataset) om een data-schaarste doel-domein (bijv. NyayaBench) te kalibreren.
- Theoretische garantie: Bewezen dat het TIB-vermogensproces een geldige supermartingaal blijft, dat het standaard WSR domineert bij gelijke distributies, en dat het de optimale "plug-in" prior is.

3. Belangrijkste Bijdragen

Formalisatie van Agent-Caching: Caching wordt formeel gedefinieerd als selectieve voorspelling waarbij de "onveilige cache-hit" de gecontroleerde risicometriek is.
Systematische Ablatie: Evaluatie van 9 bound-families op 4 benchmarks (MASSIVE, NyayaBench v2, CLINC-150, Banking77) over 18 configuraties van $(\alpha, \delta)$ .
Transfer-Informed Betting (TIB): Een novel methode die cross-domein transfer integreert in betting-based confidence sequences. Dit biedt een formele dominantie-garantie en een optimale convergentie.
Lean 4 Formalisatie: De kerntheorema's (supermartingaal-eigenschap, convergentie, optimaliteit) zijn formeel geverifieerd in de Lean 4 bewijshulp met Mathlib, zonder onbewezen goals.
Vergelijking met Conformal Prediction: Een strikt onderscheid wordt gemaakt tussen prediction sets (conformal) en single-prediction risk control (selective prediction). Conformal voorspellingen leveren sets van klassen op (ongeschikt voor caching), terwijl RCPS een enkelvoudige voorspelling met risicogarantie biedt.

4. Resultaten

De resultaten tonen aanzienlijke verbeteringen in gedekte dekking (coverage) bij gelijke risicobeperkingen:

LTT + Hoeffding: Elimineert de $\ln K$ -straf. Op MASSIVE ( $\alpha=0.10$ ) stijgt de gegarandeerde dekking van 73.8% (Hoeffding) naar 94.0%.
WSR Betting + LTT: Bereikt de strakste niet-transfer grenzen. Op MASSIVE: 96.0% dekking bij $\alpha=0.10$ .
Transfer-Informed Betting (Kleine datasets): Op NyayaBench v2 (kleine kalibratie-set, $n=134$ ) is Hoeffding onbruikbaar onder $\alpha=0.20$ . TIB bereikt echter 18.5% dekking bij $\alpha=0.10$ , een 5.4x verbetering ten opzichte van LTT + Hoeffding.
Progressief Vertrouwen: Simulaties tonen aan dat systemen met LTT al bij $n=150$ kalibratie-voorbeelden veilig semi-autonoom kunnen opereren (62% dekking), terwijl Hoeffding pas bij $n=400$ werkt.
Zero Violations: Op de primaire benchmarks (MASSIVE, NyayaBench) werden geen schendingen van de garanties waargenomen in de testsets.

5. Betekenis en Toepassing

Operationeel: De methode biedt een formele basis voor progressief vertrouwen in agentische systemen. Een systeem kan beginnen met LLM-toezicht en geleidelijk overgaan naar autonoom cache-gebruik naarmate de kalibratie-data toeneemt en de grenzen verscherpen.
Praktische Richtlijnen:
- Voor grote datasets ( $n > 500$ ): Gebruik WSR Betting + LTT of LTT + Empirical Bernstein.
- Voor kleine datasets met transfer: Gebruik Transfer-Informed Betting.
- Voor kleine datasets zonder transfer: Gebruik PAC-Bayes.
Innovatie: De combinatie van betting-based confidence sequences, LTT-monotone toetsing en cross-domein transfer is een unieke bijdrage die niet eerder in de literatuur is beschreven.

Conclusie: Het paper levert een robuust statistisch kader voor het veilig implementeren van caching in AI-agenten, waarbij het de trade-off tussen kostenbesparing (caching) en veiligheid (risicobeperking) kwantificeert en optimaliseert via geavanceerde eindige-steekproeftheorie en transfer learning.

Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting

1. De "Gokker" vs. De "Voorzichtige Rekenaar"

2. De "Leerling" die een "Meester" heeft (Transfer Learning)

3. De "Lijst" vs. De "Enkele Keuze"

4. Het "Vertrouwens-Model" (Progressive Trust)

Samenvatting in één zin

Titel

1. Probleemstelling

2. Methodologie

A. Kerncomponenten

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toepassing

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem