Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie beauftragen einen sehr intelligenten, aber manchmal etwas übereifrigen Assistenten, eine komplexe Aufgabe zu lösen – zum Beispiel, die genauen Zahlen aus einem alten, verschmierten Diagramm zu lesen und daraus eine Schlussfolgerung zu ziehen.

Normalerweise macht dieser Assistent (eine moderne KI) Folgendes: Er schaut auf das Bild, denkt laut nach und gibt sofort eine Antwort. Das Problem? Wenn er beim Lesen der Zahl einen kleinen Fehler macht (z. B. eine "3" für eine "8" hält), baut er darauf auf. Er wird immer selbstbewusster, obwohl seine Basis falsch ist. Das nennt man "Halluzinieren" – er erfindet Fakten, die nicht da sind.

Die Forscher in diesem Papier haben eine neue Methode namens Proof-of-Perception (PoP) entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar anschaulichen Bildern:

1. Statt einer einzigen Antwort: Ein Sicherheitsnetz aus Ideen

Statt dass der Assistent sofort eine einzige Antwort gibt ("Es ist eine 8"), erstellt er für jeden Schritt ein Sicherheitsnetz.

Die Analogie: Stellen Sie sich vor, Sie werfen einen Ball in einen Korb. Ein normaler Assistent sagt: "Ich habe ihn getroffen!" (und hofft, dass es stimmt).
Der PoP-Assistent: Er sagt: "Ich habe den Ball in einen Korb geworfen, der vielleicht hier, vielleicht dort oder vielleicht noch etwas daneben war." Er gibt also eine Gruppe von Möglichkeiten an, nicht nur einen Punkt.
Der Clou: Das System ist mathematisch so programmiert, dass es zu 90 % garantiert, dass die wahre Antwort in dieser Gruppe von Möglichkeiten enthalten ist. Es ist wie ein Sicherheitsgurt, der immer angelegt ist.

2. Der Bauplan: Ein Flussdiagramm statt einer Rutsche

Normalerweise läuft eine KI-Aufgabe wie eine Rutsche ab: Man rutscht von oben nach unten, ohne umdrehen zu können.

PoP baut stattdessen ein Gebäude mit vielen Räumen. Jeder Raum ist ein kleiner Schritt (z. B. "Text lesen", "Form erkennen", "Zahlen addieren").
In jedem Raum gibt es einen Wächter (den "Controller"). Dieser Wächter prüft das Sicherheitsnetz aus Schritt 1.
- Ist das Netz klein und sicher? -> Der Wächter sagt: "Alles klar, weiter zum nächsten Raum."
- Ist das Netz groß und unsicher? -> Der Wächter sagt: "Stopp! Hier ist es zu unklar."

3. Der intelligente Budget-Manager

Das System hat ein begrenztes "Geld" (Rechenleistung).

Der alte Weg: Der Assistent rechnet immer genau gleich viel, egal ob die Aufgabe einfach oder schwer ist. Das ist verschwenderisch.
Der PoP-Weg: Der Wächter ist wie ein kluger Manager.
- Wenn er sieht, dass ein Schritt unsicher ist, gibt er mehr Geld aus, um den Schritt genauer zu prüfen (z. B. das Bild in höherer Auflösung neu scannen oder einen anderen Werkzeug-Tool benutzen).
- Wenn er sieht, dass alles sicher ist, spart er Geld und beendet die Aufgabe sofort.
- Das Ergebnis: Man bekommt eine höhere Genauigkeit, aber nur dort, wo es nötig ist.

4. Der "Übungs-Trainingslager"-Effekt (Selbstspiel)

Damit der Wächter wirklich gut wird, lässt das System den Assistenten in einer Art "Übungs-Trainingslager" gegen sich selbst antreten.

Ein Teil des Systems (der "Bösewicht") versucht, das Bild zu verzerren (z. B. Schriftart ändern, Rauschen hinzufügen), um den Assistenten zu verwirren.
Der Assistent muss lernen, diese verwirrenden Fälle zu erkennen und trotzdem das richtige Sicherheitsnetz zu spannen.
So lernt das System, auch bei echten, chaotischen Situationen (wie einem schiefen Foto oder einer unleserlichen Handschrift) nicht zu panikieren, sondern vorsichtig zu bleiben.

Warum ist das wichtig?

In der Welt der KI geht es oft darum, wie "cool" oder "schnell" eine Antwort ist. PoP ändert das Spiel:

Weniger Lügen: Da das System unsichere Schritte sofort erkennt und korrigiert, erfindet es viel weniger Fakten.
Verifizierbare Beweise: Wenn das System eine Antwort gibt, kann man genau nachvollziehen, welche Schritte (z. B. welcher Text im Bild) zu dieser Antwort geführt haben. Es ist nicht mehr nur ein "Glaubenssatz".
Effizienz: Es verschwendet keine Rechenleistung an Aufgaben, die es schon sicher lösen kann.

Zusammenfassend:
Proof-of-Perception verwandelt die KI von einem selbstbewussten, aber manchmal irren Redner in einen vorsichtigen, überprüfenden Ingenieur. Er sagt nicht einfach "Ich weiß es!", sondern "Ich bin zu 90 % sicher, dass die Antwort in diesem Bereich liegt, und ich habe extra geprüft, woher ich das weiß." Das macht KI-Systeme für wichtige Aufgaben wie medizinische Diagnosen, Finanzanalysen oder das Lesen von Verträgen viel zuverlässiger.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) haben zwar Fortschritte bei offenen Vision-Sprach-Aufgaben erzielt, stoßen jedoch bei komplexen Aufgaben wie Dokumentenverständnis, Diagramm-Reasoning und Fragen zu mehreren Bildern an Grenzen.

Verknüpfung von Wahrnehmung und Reasoning: Herkömmliche Ansätze verknüpfen feinkörnige Wahrnehmung (z. B. OCR, Objekterkennung, Diagrammparsing) direkt mit symbolischem Reasoning in einem einzigen Vorwärtspass. Dies führt zu „brittle" (brüchigen) Kaskaden: Ein früher perceptualer Fehler (z. B. eine falsch gelesene Zahl) zwingt spätere Schritte, diesen Fehler zu rationalisieren, was zu selbstsicheren, aber unbegründeten Antworten (Halluzinationen) führt.
Mangelnde Unsicherheitsquantifizierung: Bestehende Tool-basierte Ansätze (wie Chain-of-Thought, ReAct oder Program-of-Thought) treffen oft irreversible Entscheidungen auf Zwischenschritten (Single-Valued Intermediates). Die Rechenressourcen werden meist durch Heuristiken gesteuert, und eine Kalibrierung der Unsicherheit erfolgt – wenn überhaupt – nur für die finale Antwort, nicht für die einzelnen Reasoning-Schritte.
Fehlende Nachvollziehbarkeit: Es gibt keine verifizierbaren Beweise dafür, dass eine Antwort auf tatsächlichen visuellen Evidenzen basiert.

2. Methodik: Proof-of-Perception (PoP)

PoP ist ein Framework, das multimodales Reasoning als die Ausführung eines gerichteten azyklischen Graphen (DAG) modelliert. Jeder Knoten im Graphen repräsentiert entweder eine Wahrnehmungsoperation (Tool-Aufruf) oder eine Logik-Fusion.

Kernkomponenten:

Konforme Vorhersage auf Knotenebene (Node-Level Conformal Prediction):
- Statt einer einzelnen Punktvorhersage gibt jeder Knoten $v$ (z. B. OCR, Detektion, Chart-Parsing) eine konforme Menge $\Gamma^{(t)}_\delta(x)$ aus.
- Dies wird durch eine Nicht-Konformitätsfunktion $s^{(t)}(x, z)$ und einen kalibrierten Schwellenwert $\tau^{(t)}_\delta$ erreicht.
- Die Ausgabe ist die Menge aller Kandidaten $z$ , für die $s^{(t)}(x, z) \le \tau^{(t)}_\delta$ gilt.
- Garantie: Unter der Annahme von Austauschbarkeit (Exchangeability) wird eine marginale Abdeckung von $1-\delta$ garantiert (z. B. 90 % Wahrscheinlichkeit, dass der wahre Wert in der Menge liegt).
Adaptiver Controller:
- Ein leichter Controller $\pi_\phi$ beobachtet die konformen Mengen und den verbleibenden Rechenbudget.
- Er trifft Entscheidungen pro Knoten:
  - ACCEPT: Akzeptiere die aktuelle Menge (wenn die Unsicherheit gering ist).
  - RETRY: Führe den Knoten mit höherer Qualität aus (z. B. höhere Auflösung).
  - EXPAND: Füge neue Kindknoten hinzu (z. B. zusätzliche Tools oder Teilbereiche), um die Unsicherheit zu reduzieren.
  - ABORT: Beende den Prozess frühzeitig, wenn das Budget aufgebraucht ist oder die Frage als unbeantwortbar eingestuft wird.
- Dies wandelt Unsicherheit von einem passiven Score in eine aktive Rechenstrategie um.
Selbstspiel-Counterexample Mining (Self-Play):
- Um die Robustheit zu erhöhen, trainiert das System gegen einen „Adversary" (ein eingefrorenes Klon-Modell), das gestörte Eingaben (z. B. verzerrter Text, Rauschen, Layout-Änderungen) generiert.
- Diese schwierigen Fälle werden in die Kalibrierungspools aufgenommen, um sicherzustellen, dass die Schwellenwerte $\tau$ auch unter Verteilungsverschiebungen (Distribution Shifts) zuverlässig bleiben.
Trainingsziel:
- Die Gesamtverlustfunktion kombiniert Task-Loss, Planungs-Loss, Zertifikats-Loss (damit die Scores mit den Schwellenwerten übereinstimmen) und einen Controller-Loss, der einen Trade-off zwischen Genauigkeit und Rechenkosten (Budget) optimiert.

3. Schlüsselbeiträge

Erste Integration von Konformer Vorhersage in multimodale Reasoning-Graphen: PoP liefert nicht nur für die finale Antwort, sondern für jeden Zwischenschritt (OCR, Detektion, Logik) kalibrierte Unsicherheitsmengen.
Beweisbare Zuverlässigkeit: Die Methode bietet mathematische Garantien für die Abdeckung der wahren Werte auf Knotenebene, was Halluzinationen reduziert.
Prinzipieller Trade-off zwischen Genauigkeit und Rechenleistung: Durch den adaptiven Controller wird Rechenleistung nur dort investiert, wo die konformen Mengen eine hohe Unsicherheit anzeigen. Dies vermeidet unnötige Tool-Aufrufe bei klaren Fällen.
Verifizierbare Evidenz: Die finale Antwort ist durch eine Spur von konformen Mengen (Evidence Trace) begründet, die nachvollziehbar macht, welche visuellen Daten die Antwort stützen.

4. Ergebnisse

Die Evaluation erfolgte auf Benchmarks wie DocVQA, TextVQA, InfographicVQA, ChartQA und MultiDoc2Dial.

Leistungssteigerung: PoP übertrifft starke Baselines (Chain-of-Thought, ReAct, Program-of-Thought) in Bezug auf Genauigkeit (EM, F1) und reduziert Halluzinationen signifikant (um 27–45 %).
Kalibrierungsgenauigkeit: Die empirische Abdeckung der konformen Mengen liegt nahe am Zielwert von 90 % (z. B. 90,7 % für OCR-Strings, 91,3 % für Detektions-Boxen), selbst unter synthetischen Störungen (Schriftartenwechsel, Unordnung, affine Verzerrungen).
Effizienz: PoP erreicht bei gleicher oder besserer Genauigkeit einen geringeren Rechenbedarf. Bei einem Budget von 12 Einheiten erreicht PoP oft die Leistung von Baselines, die ein Budget von 16 benötigen (Einsparung von ~25 %).
Robustheit: Durch das Self-Play-Training bleibt die Leistung bei verteilungsbedingten Änderungen stabil, während Baselines ohne solche Mechanismen stärker degradieren.

5. Bedeutung und Fazit

Proof-of-Perception (PoP) stellt einen Paradigmenwechsel dar, indem es multimodales Reasoning von einem „Black-Box"-Prozess in einen zertifizierten, verifizierbaren Workflow verwandelt.

Vertrauen: Die expliziten Unsicherheitsgarantien auf jedem Schritt machen das System vertrauenswürdiger für kritische Anwendungen.
Ressourcenoptimierung: Es ermöglicht eine dynamische Steuerung der Rechenressourcen basierend auf dem tatsächlichen Schwierigkeitsgrad der Teilaufgaben, anstatt starre Heuristiken zu verwenden.
Reduktion von Halluzinationen: Durch das Festhalten mehrerer Kandidaten, bis Evidenz vorliegt, und das Vermeiden von vorzeitigen Festlegungen werden fehlerhafte Schlussfolgerungen minimiert.

Das Framework ist modell- und tool-agnostisch und kann als Schicht über bestehenden MLLMs implementiert werden, um deren Zuverlässigkeit und Effizienz fundamental zu verbessern. Der Code ist öffentlich verfügbar.

Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

1. Statt einer einzigen Antwort: Ein Sicherheitsnetz aus Ideen

2. Der Bauplan: Ein Flussdiagramm statt einer Rutsche

3. Der intelligente Budget-Manager

4. Der "Übungs-Trainingslager"-Effekt (Selbstspiel)

Warum ist das wichtig?

1. Problemstellung

2. Methodik: Proof-of-Perception (PoP)

Kernkomponenten:

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

M-RAG: Making RAG Faster, Stronger, and More Efficient

Bridge-RAG: An Abstract Bridge Tree Based Retrieval Augmented Generation Algorithm With Cuckoo Filter

ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

SRAG: RAG with Structured Data Improves Vector Retrieval

Can AI be a Teaching Partner? Evaluating ChatGPT, Gemini, and DeepSeek across Three Teaching Strategies