Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms overmoedige assistent hebt die foto's en documenten kan lezen. Deze assistent (een AI) is geweldig, maar hij maakt een veelgemaakte fout: hij is vaak te zelfverzekerd. Als hij een tekst op een foto niet helemaal duidelijk ziet, raadt hij een woord en gaat hij daar direct mee verder. Als dat woord verkeerd is, bouwt hij zijn hele antwoord daarop op, wat resulteert in een mooi klinkend, maar volledig verkeerd verhaal. Dit noemen we in de AI-wereld "hallucineren".

De auteurs van dit papier, Proof-of-Perception (PoP), hebben een oplossing bedacht die we kunnen vergelijken met het werken van een voorzichtige detective in plaats van een snelle gokker.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Geen enkele gok, maar een "veiligheidsnet"

Normaal gesproken zegt een AI: "Ik zie hier het woord 'Apple'." En klaar.
PoP doet iets anders. Het zegt: "Ik zie hier waarschijnlijk 'Apple', maar ik heb een 90% zekerheidsnet om die gok heen. Het zou ook 'Aple' of 'Appel' kunnen zijn, afhankelijk van hoe goed ik het zie."

In de techniek noemen ze dit een conformal set.

De analogie: Stel je voor dat je een schatting doet van de prijs van een huis. Een gewone AI zegt: "Het is precies €300.000." PoP zegt: "Het ligt ergens tussen €290.000 en €310.000." Als de echte prijs binnen dat bereik valt, is de AI "in het gelijk". Dit zorgt ervoor dat de AI niet vastloopt op één verkeerd getal.

2. De "Detective" en zijn "Assistenten"

PoP splitst de taak niet in één grote sprong, maar in een stappenplan (een grafiek).

Stap 1: Een assistent leest de tekst (OCR).
Stap 2: Een assistent zoekt naar objecten (bijv. "waar is de auto?").
Stap 3: Een assistent rekent uit wat de chart betekent.
Stap 4: Een hoofddetective (de controller) vat alles samen.

Elke assistent heeft een certificaat (een zekerheidsbewijs). Als de assistent zegt: "Ik zie een auto, maar mijn certificaat zegt dat ik maar 50% zeker ben," dan weet de hoofddetective: "Oké, hier moet ik extra tijd in steken."

3. De Slimme Manager (De Controller)

Dit is het meest creatieve deel. In plaats van dat de AI altijd evenveel tijd en rekenkracht gebruikt, heeft PoP een Slimme Manager die een budget beheert.

Het scenario: De AI moet een document analyseren.
Gewone AI: Leest alles, maakt een gok, en hoopt dat het goed is. Als het fout is, is het te laat.
PoP met Manager:
- De assistent leest een tekstregel en zegt: "Ik ben 95% zeker, dit is '100'."
- De Manager kijkt naar het certificaat: "Geweldig, dat is zeker genoeg. Stop hier, ga door naar de volgende regel." (Bespaart tijd!).
- Een andere assistent zegt: "Ik zie een getal, maar het is wazig. Mijn certificaat zegt dat ik maar 60% zeker ben."
- De Manager denkt: "Geen paniek, maar we moeten dit oplossen. Geef deze assistent een hogere resolutie foto of laat hem het nog eens proberen." (Extra tijd, maar alleen waar nodig).

Dit is als een chef-kok die kookt: als de soep al lekker smaakt, proeft hij niet elke seconde. Maar als de soep te zout lijkt, proeft hij extra en voegt hij water toe. Hij verspillen geen tijd aan dingen die al goed zijn.

4. Waarom is dit zo cool?

Minder leugens (Hallucinaties): Omdat de AI niet vastzit aan één fout antwoord, maar een bereik heeft, kan hij zich niet vergissen op een verkeerd woord. Hij blijft "vasthouden" aan het bewijs.
Efficiëntie: De AI verspillen geen energie aan dingen die hij al zeker weet. Hij focust zijn "rekenkracht" alleen op de moeilijke, wazige stukjes.
Verifieerbaar: Als de AI een antwoord geeft, kun je terugkijken naar de "sporen" (de certificaten) die laten zien waarom hij dat antwoord gaf. Het is niet meer een zwarte doos; het is een bewezen proces.

Samenvattend in één zin:

Proof-of-Perception is een slimme AI-architectuur die niet blindelings gokt, maar voor elke stap een zekerheidsnet heeft, en een Slimme Manager die alleen extra tijd en energie uitgeeft op de momenten dat het echt nodig is, waardoor de antwoorden betrouwbaarder en sneller zijn.

Het is de overstap van "Ik denk dat het waar is, geloof me!" naar "Hier is het bewijs, en hier is hoe zeker we zijn."

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Multimodale Large Language Models (MLLMs) hebben grote vooruitgang geboekt in open-ended visueel-taaktaken, maar worstelen nog steeds met complexe taken zoals documentbegrip, redeneren over grafieken en vragen over meerdere afbeeldingen. De huidige benaderingen hebben drie fundamentele tekortkomingen:

Britte tussenstappen: Bestaande methoden (zoals Chain-of-Thought of ReAct) maken vaak een "single-valued" keuze (één specifieke OCR-tekst, één bounding box) in tussenstappen. Als deze vroege perceptiestap fout is, worden latere redeneerstappen gedwongen om deze fout te rationaliseren, wat leidt tot zelfverzekerde maar ongegronde antwoorden (hallucinaties).
Heuristische computebesturing: Het bepalen van wanneer meer rekenkracht nodig is (bijv. opnieuw proberen of extra tools aanroepen) gebeurt vaak op basis van vaste regels of heuristieken, zonder een fundamentele garantie voor betrouwbaarheid.
Gebrek aan calibratie: Calibratie wordt meestal alleen toegepast op het uiteindelijke antwoord, niet op de reeks perceptie- en logische stappen die daartoe leiden. Hierdoor is de onzekerheid van tussenstappen niet gekwantificeerd.

Methodologie: Proof-of-Perception (PoP)

PoP lost deze problemen op door multimodaal redeneren te modelleren als de uitvoering van een gericht acyclisch graaf (DAG), waarbij elke knoop een perceptie- of logische operatie is die is uitgerust met conformale certificaten.

1. Graafrepresentatie

Het redeneerproces wordt weergegeven als een DAG $G=(V, E)$ :

Tool-knooppunten: Roepen externe tools aan (bijv. OCR, objectdetectie, grafiekparser).
Fusie-knooppunten: Voeren logische operaties uit binnen het MLLM, waarbij resultaten van voorgaande knopen worden samengevoegd.
Het MLLM fungeert als een "planner" die een DSL-programma (Domain Specific Language) genereert dat deze graaf definieert.

2. Conformale Voorspelling per Knoop

In plaats van een enkel puntvoorspelling te geven, levert elke knoop $v$ van type $t$ een verzameling van kandidaat-uitkomsten $\Gamma^{(t)}_\delta(x)$ op.

Niet-conformiteitsfunctie: Een leerbaar model $s^{(t)}(x, z)$ meet hoe "vreemd" een kandidaat $z$ is ten opzichte van de input $x$ .
Calibratie: Met behulp van een gesplitste conformale voorspelling (split-conformal prediction) wordt een drempelwaarde $\tau^{(t)}_\delta$ bepaald op een calibratieset.
Garantie: De output is de verzameling van alle $z$ waarvoor $s^{(t)}(x, z) \leq \tau^{(t)}_\delta$ . Dit garandeert dat de ware waarde met een kans van minstens $1-\delta$ (bijv. 90%) binnen deze verzameling ligt, mits de data uitwisselbaar is.

3. Adaptieve Controller

Een lichte controller $\pi_\phi$ observeert de certificaten (de grootte en spreiding van de verzamelingen) en het beschikbare rekenbudget. De controller neemt per knoop een beslissing uit de volgende acties:

ACCEPT: De huidige verzameling is betrouwbaar genoeg; ga door.
RETRY: Herhaal de knoop met een hogere kwaliteit configuratie (bijv. hogere resolutie).
EXPAND: Voeg nieuwe knopen toe om de onzekerheid op te lossen (bijv. extra OCR-opdrachten op subregio's).
ABORT: Stop vroeg als het budget op is of de vraag onbeantwoordbaar lijkt.

Dit creëert een actieve computepolicy: onzekerheid stuurt extra rekenkracht naar twijfelachtige subproblemen, terwijl betrouwbare stappen vroeg stoppen.

4. Self-Play en Robuustheid

Om robuustheid te vergroten, gebruikt PoP een "self-play" lus. Een "adversariaal" model genereert verstoord data (bijv. vervormde tekst, ruis, andere lettertypes) om moeilijke gevallen (counterexamples) te vinden. Deze worden toegevoegd aan de calibratieset, zodat de drempelwaarden realistisch blijven onder distributieveranderingen.

Belangrijkste Bijdragen

Certificatie van tussenstappen: Het is de eerste framework die conformale voorspelling toepast op elke knoop in een multimodaal redeneerproces, niet alleen op het eindantwoord.
Principiële afweging tussen nauwkeurigheid en kosten: Door onzekerheid om te zetten in een dynamische computepolicy, vermijdt PoP overbodige tool-aanroepen en compenseert het fouten proactief.
Vermindering van hallucinaties: Antwoorden worden geworteld in verifieerbare perceptiesporen (evidence traces). Als een knoop geen betrouwbare verzameling kan genereren, wordt dit opgevangen door de controller in plaats van dat het model een willekeurig antwoord genereert.

Resultaten

PoP is geëvalueerd op diverse benchmarks (DocVQA, TextVQA, InfographicVQA, ChartQA, MultiDoc2Dial) en vergeleken met sterke baselines zoals Chain-of-Thought, ReAct en Program-of-Thought.

Prestaties: PoP verbetert consistent de nauwkeurigheid (EM/F1 scores) en verlaagt de hallucinatiegraad met 27-45% ten opzichte van de beste baselines.
Betrouwbaarheid: De empirische dekking (coverage) van de verzamelingen ligt dicht bij het doel van 90% (bijv. 90.7% voor OCR, 91.3% voor detectie), zelfs onder synthetische verstoringen (lettertype-wisselingen, ruis).
Efficiëntie: PoP bereikt betere resultaten met minder rekenkracht. Bijvoorbeeld, op TextVQA bereikt PoP met een budget van 12 een vergelijkbare nauwkeurigheid als baselines met een budget van 16 (een besparing van 25%).
Ablatiestudies: Het verwijderen van conformale sets (No-CP) leidt tot een significante daling in nauwkeurigheid en een stijging in hallucinaties, wat aantoont dat de set-voorspellingen cruciaal zijn voor betrouwbaarheid.

Significantie

Dit paper introduceert een paradigmaverschuiving in multimodaal redeneren: van het vertrouwen op "single-shot" voorspellingen en heuristieken naar een verifieerbaar, stap-voor-stap gefundeerd proces.

Vertrouwen: Het biedt wiskundige garanties voor de betrouwbaarheid van tussenstappen, wat essentieel is voor kritieke toepassingen.
Efficiëntie: Het toont aan dat slimme allocatie van rekenkracht gebaseerd op onzekerheid leidt tot betere resultaten tegen lagere kosten.
Toekomst: PoP biedt een blauwdruk voor het bouwen van AI-systemen die niet alleen "slimmer" zijn, maar ook weten wanneer ze het niet weten en hoe ze dat moeten oplossen zonder te hallucineren.

Kortom, Proof-of-Perception maakt multimodale AI-systemen robuuster, transparanter en efficiënter door onzekerheid te transformeren van een passieve score in een actieve besturingsparameter.