Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Le Détective qui a trop confiance en lui

Imaginez que vous demandez à un détective très intelligent (une IA multimodale) de résoudre une énigme complexe basée sur un document rempli de graphiques, de textes et d'images.

Le problème avec les détectives actuels (les modèles d'IA classiques), c'est qu'ils sont souvent trop sûrs d'eux.

Ils regardent une image, devinent ce qu'il y a écrit (par exemple, un chiffre sur un graphique).
S'ils se trompent un tout petit peu à cette étape, ils continuent leur raisonnement en se basant sur cette erreur.
Résultat : Ils vous donnent une réponse finale très convaincante, mais fausse, car ils ont construit tout leur raisonnement sur un mensonge initial. On appelle cela une "hallucination".

De plus, ils ne savent pas quand s'arrêter. Ils peuvent passer des heures à chercher des indices inutiles ou, au contraire, s'arrêter trop vite.

💡 La Solution : PoP (Preuve de Perception)

Les auteurs de ce papier, Arya Fayyazi et Haleh Akrami, ont créé un nouveau système appelé Proof-of-Perception (PoP).

Imaginez que PoP n'est pas un seul détective, mais une équipe de spécialistes qui travaillent ensemble avec une règle d'or : "Ne jamais faire confiance à une seule opinion."

Voici comment cela fonctionne, étape par étape, avec des analogies simples :

1. Le Réseau de Sécurité (Le Graphe)

Au lieu de lire le document d'un seul coup, PoP découpe le problème en petites étapes, comme des cases dans un jeu de société.

Une case pour lire le texte (OCR).
Une case pour identifier les objets (Détection).
Une case pour comprendre les graphiques.
Une case pour faire les calculs logiques.

2. Le "Filet de Sécurité" (Conformal Prediction)

C'est le cœur de l'innovation. Quand un spécialiste (une "case") regarde une image, il ne donne pas une seule réponse (ex: "Le chiffre est 5").
Au lieu de cela, il donne une boîte de réponses possibles (un ensemble) avec un certificat de fiabilité.

L'analogie du filet de pêche :
Imaginez que le spécialiste lance un filet. Au lieu de dire "J'ai attrapé exactement ce poisson", il dit : "Je suis 95 % certain que le poisson se trouve quelque part dans ce filet".

Si le poisson (la vraie réponse) est dans le filet, tout va bien. Si le filet est trop petit et que le poisson s'échappe, le système le sait immédiatement.

Ce "filet" s'appelle un ensemble conformal. Il garantit mathématiquement que la bonne réponse est dedans la plupart du temps.

3. Le Chef d'Orchestre (Le Contrôleur Adaptatif)

Il y a un petit chef d'orchestre (le contrôleur) qui surveille tous les filets.

Scénario A (Tout va bien) : Le filet est plein, la réponse est claire. Le chef dit : "Super, on avance !" et économise du temps et de l'énergie.
Scénario B (Le filet est vide ou trop grand) : Le chef voit que le spécialiste n'est pas sûr. Il dit : "Attends, on ne peut pas continuer avec cette incertitude."
- Il peut demander de réessayer avec une image plus nette (plus de détails).
- Il peut demander d'ajouter un nouvel expert pour vérifier.
- Il peut arrêter si le budget de temps est épuisé.

C'est comme un chef de chantier qui dit : "Si tu n'es pas sûr de la solidité de ce mur, on ne construit pas l'étage au-dessus. On va renforcer le mur d'abord."

🚀 Pourquoi c'est génial ? (Les Résultats)

Grâce à cette méthode, PoP obtient trois super pouvoirs :

Moins de mensonges (Hallucinations) : Comme le système vérifie chaque étape avec son "filet de sécurité", il ne construit pas de fausses certitudes. Il avoue quand il ne sait pas ou demande de l'aide.
Économie d'énergie : Il ne gaspille pas de temps à chercher des indices inutiles. Il ne dépense de l'énergie (calcul) que là où c'est vraiment nécessaire (là où le filet est incertain).
Preuves vérifiables : À la fin, PoP ne vous donne pas juste une réponse. Il vous donne la réponse plus le chemin parcouru (les preuves visuelles, les textes lus, les graphiques analysés). Vous pouvez vérifier vous-même : "Ah oui, le chiffre 5 vient bien de cette case-là."

🎯 En résumé

Proof-of-Perception, c'est passer d'un détective solitaire qui devine tout pour plaire, à une équipe de vérificateurs rigoureux qui utilisent des filets de sécurité mathématiques.

Avant : "Je pense que c'est 5." (Et si c'est faux ? On ne sait pas).
Avec PoP : "Je suis certain à 95 % que c'est entre 4 et 6. Si ce n'est pas assez précis, je vais demander une photo plus nette avant de conclure."

C'est une façon plus intelligente, plus sûre et plus économe de faire réfléchir les intelligences artificielles sur des documents complexes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage multimodaux (MLLM) actuels, bien que performants, souffrent de limitations critiques dans des tâches complexes comme la compréhension de documents, le raisonnement sur des graphiques ou les questions-réponses multi-images :

Fragilité des intermédiaires : Les approches actuelles (Chain-of-Thought, ReAct, Program-of-Thought) génèrent souvent des intermédiaires "mono-valeurs" (une seule chaîne de caractères OCR, une seule boîte de détection). Une erreur précoce se propage et force les étapes suivantes à rationaliser cette erreur, menant à des réponses confiantes mais infondées (hallucinations).
Manque de garanties de fiabilité : Les systèmes existants ne quantifient pas l'incertitude à chaque étape. Le contrôle du calcul (nombre d'appels d'outils, réessais) repose sur des heuristiques fixes ou des seuils non calibrés, sans lien avec une garantie statistique de fiabilité.
Compromis efficacité/précision : Il est difficile de trouver un équilibre optimal entre la précision de la réponse et le coût computationnel, car les systèmes ne savent pas quand s'arrêter ou quand investir davantage de ressources de manière principielle.

2. Méthodologie : Proof-of-Perception (PoP)

PoP propose un cadre qui transforme le raisonnement multimodal en l'exécution d'un graphe acyclique dirigé (DAG), où chaque nœud est équipé de garanties de fiabilité statistiques via la prédiction conforme (Conformal Prediction - CP).

A. Représentation du Graphe de Raisonnement

Le processus de raisonnement est modélisé comme un DAG où les nœuds sont de deux types :

Nœuds d'outils (Perception) : Exécutent des opérations externes (OCR, détection d'objets, analyse de graphiques, parsing de mise en page).
Nœuds de fusion (Logique) : Opèrent à l'intérieur du MLLM pour fusionner les résultats des nœuds parents avec la requête utilisateur.

B. Prédiction Conforme par Nœud

Au lieu de produire une seule prédiction ponctuelle, chaque nœud $v$ de type $t$ (ex: OCR, détection) produit un ensemble de candidats $\Gamma^{(t)}_\delta(x)$ , garantissant une couverture marginale de $1-\delta$ .

Fonction de non-conformité : Pour chaque nœud, une fonction $s^{(t)}(x, z)$ mesure à quel point une candidate $z$ est "étrange" par rapport à l'entrée $x$ .
Seuil calibré : Un seuil $\tau^{(t)}_\delta$ est déterminé sur un ensemble de calibration (split-conformal) pour définir l'ensemble de sortie : $\Gamma^{(t)}_\delta(x) = \{z : s^{(t)}(x, z) \le \tau^{(t)}_\delta\}$ .
Garantie : Sous l'hypothèse d'échangeabilité, la probabilité que la vérité terrain appartienne à cet ensemble est $\ge 1-\delta$ .

C. Contrôleur Adaptatif

Un contrôleur léger $\pi_\phi$ observe les ensembles conformes de chaque nœud et un budget global de calcul. Il décide dynamiquement de l'action à entreprendre :

ACCEPT : L'incertitude est faible, l'ensemble est validé.
RETRY : Réexécuter le nœud avec une configuration de meilleure qualité (ex: image en plus haute résolution).
EXPAND : Ajouter de nouveaux nœuds enfants pour affiner le raisonnement (ex: appeler un outil OCR supplémentaire sur une sous-région).
ABORT : Arrêter prématurément si la question est jugée non répondable sous le budget.
Ce mécanisme transforme l'incertitude en une politique de calcul active, évitant les appels d'outils inutiles tout en investissant là où c'est nécessaire.

D. Apprentissage et Robustesse (Self-Play)

Pour renforcer la robustesse, PoP utilise une boucle de self-play :

Un adversaire (copie figée du modèle) génère des contre-exemples perturbés (changement de police, bruit OCR, déformation affine, désordre visuel).
Le modèle étudiant apprend à récupérer la réponse correcte et à maintenir la couverture conforme sur ces cas difficiles.
Ces cas difficiles enrichissent les pools de calibration, assurant que les seuils $\tau$ restent fiables même sous des décalages de distribution.

3. Contributions Clés

Certification Compositionnelle : Première approche appliquant la prédiction conforme à chaque étape d'un pipeline de raisonnement multimodal (pas seulement à la réponse finale), garantissant la fiabilité des traces perceptives intermédiaires.
Allocation de Calcul Principielle : Un contrôleur qui utilise les certificats d'incertitude pour allouer le budget computationnel de manière adaptative, optimisant le compromis précision-coût.
Réduction des Hallucinations : En ancrant les réponses dans des traces perceptives vérifiables (ensembles conformes) et en évitant les décisions précipitées, le système réduit drastiquement les hallucinations.
Architecture Modulaire : PoP est agnostique au modèle de base (MLLM) et aux outils, permettant une intégration facile avec les systèmes existants.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks : DocVQA, TextVQA, InfographicVQA, ChartQA et MultiDoc2Dial.

Performance et Fiabilité : PoP surpasse systématiquement les baselines fortes (Chain-of-Thought, ReAct, Program-of-Thought) en termes de précision (EM/F1) tout en réduisant le taux d'hallucination de 27 % à 45 %.
Efficacité Computationnelle : PoP atteint des performances supérieures avec moins d'appels d'outils. Par exemple, sur TextVQA, il atteint une précision équivalente à des baselines utilisant 16 unités de budget avec seulement 12 unités.
Garanties de Couverture : Les ensembles conformes atteignent la couverture cible de 90 % (ex: 90,7 % pour l'OCR, 91,3 % pour la détection) même sous des perturbations synthétiques (changement de police, bruit, déformation).
Ablations :
- Sans CP (No-CP) : La précision chute et les hallucinations augmentent considérablement.
- CP uniquement sur la réponse finale : Moins efficace que la CP par nœud, car les erreurs précoces ne sont pas détectées et corrigées.
- Contrôleur heuristique vs appris : Le contrôleur appris économise environ 18 % de budget pour une précision similaire par rapport aux règles fixes.

5. Signification et Impact

Ce travail représente une avancée majeure vers des systèmes d'IA multimodaux fiables et explicables.

Changement de paradigme : Il passe d'une approche de "devinette unique" à une approche de "preuve vérifiable", où chaque étape du raisonnement est certifiée.
Gestion de l'incertitude : Il offre un moyen pratique de gérer l'incertitude non pas comme un score passif, mais comme un signal d'action pour le système (s'arrêter, réessayer, approfondir).
Applications critiques : Cette approche est particulièrement pertinente pour des domaines exigeant une haute fiabilité (médical, juridique, analyse financière) où les hallucinations sont inacceptables et où la traçabilité des preuves est essentielle.

En résumé, Proof-of-Perception établit un nouveau standard pour le raisonnement multimodal en combinant la puissance des outils externes avec des garanties statistiques rigoureuses, permettant des systèmes plus robustes, économes en calcul et dignes de confiance.