Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple de ce papier de recherche, imaginée comme une histoire pour le grand public.

🕵️‍♂️ Le Problème : Le "Jumeau Malicieux" des Banques

Imaginez que votre banque utilise un robot très intelligent (un agent IA) pour décider si une transaction est suspecte ou non. Un jour, le régulateur (le "gendarme" de la finance) arrive et demande : "Montrez-moi pourquoi vous avez bloqué cette transaction. Refaites exactement la même chose avec les mêmes données, et je veux voir le même résultat."

C'est là que le problème surgit. La plupart des robots intelligents actuels sont comme des artistes impressionnistes : ils peuvent peindre un beau tableau (prendre la bonne décision), mais si vous leur demandez de peindre le même tableau deux fois de suite, ils utiliseront des coups de pinceau différents, changeront les couleurs, et le résultat final sera légèrement différent à chaque fois.

Pour une banque, c'est un cauchemar. Si le robot change d'avis ou de méthode chaque fois qu'on lui pose la même question, on ne peut pas l'auditer. C'est comme si un juge changeait de verdict à chaque fois qu'on lui rappelle l'affaire.

🛠️ La Solution : Le "Test de Répétabilité" (DFAH)

L'auteur, Raffi, a créé un outil appelé DFAH (un harnais d'assurance). Imaginez-le comme une machine à remonter le temps ou un laboratoire de contrôle qualité ultra-précis.

Au lieu de demander au robot : "Es-tu intelligent ?", ce test demande : "Es-tu fiable ?". Il vérifie deux choses :

La Répétabilité (Déterminisme) : Si je vous donne le même casse-tête 10 fois, allez-vous le résoudre exactement de la même manière, avec les mêmes étapes ?
La Fidélité (Faithfulness) : Votre décision est-elle basée sur les preuves réelles que vous avez trouvées, ou avez-vous inventé une histoire pour justifier votre choix ?

🧪 Les Résultats de l'Expérience : Le Dilemme du "Petit Robot vs Le Grand Génie"

L'auteur a fait courir 4 700 fois différents robots sur 3 types de tâches financières (comme trier des alertes de blanchiment d'argent ou vérifier des portefeuilles d'investissement). Voici ce qu'il a découvert, avec une analogie simple :

1. Les Petits Robots (Modèles de 7 à 20 milliards de paramètres)

Leur super-pouvoir : Ils sont comme des robots de cuisine programmés. Si vous leur donnez la même recette, ils coupent les oignons exactement de la même façon 100 fois sur 100. Ils sont parfaitement prévisibles.
Leur faiblesse : Ils sont un peu bêtes. Ils suivent des règles rigides. S'ils ne savent pas quoi faire, ils disent toujours la même chose (par exemple : "Je bloque tout !"). Ils sont très fiables mais souvent faux (seulement 20 à 40% de bonnes réponses).
Verdict : Parfait pour l'audit, mais pas pour prendre de bonnes décisions complexes.

2. Les Grands Génies (Modèles "Frontier" comme Claude ou Gemini)

Leur super-pouvoir : Ils sont comme des chefs étoilés. Ils peuvent cuisiner des plats délicieux et trouver des solutions intelligentes. Ils sont souvent plus justes (plus de bonnes réponses).
Leur faiblesse : Ils sont imprévisibles. Si vous leur donnez la même recette deux fois, ils peuvent utiliser une casserole différente, changer l'ordre des ingrédients, et arriver à un résultat légèrement différent. Parfois, ils inventent des ingrédients qui n'existent pas.
Verdict : Excellents pour l'intelligence, mais dangereux pour l'audit car on ne peut pas garantir qu'ils feront la même chose demain.

3. La Révélation Surprise

L'auteur a découvert quelque chose de crucial : Être intelligent et être prévisible ne vont pas ensemble !
Il n'y a pas de corrélation. Un robot peut être très précis mais totalement imprévisible, ou très prévisible mais souvent faux.

Analogie : C'est comme un tireur d'élite.

Le robot A tire toujours au même endroit (prévisible), mais c'est loin de la cible (faux).

Le robot B touche la cible souvent (juste), mais il tire parfois à gauche, parfois à droite, parfois au centre (imprévisible).

Le problème : Pour la banque, il faut un tireur qui touche la cible ET qui tire toujours exactement au même endroit. Or, aucun robot actuel ne fait les deux parfaitement.

💡 La Conclusion Pratique : Comment les Banques doivent réagir ?

Puisqu'on ne peut pas avoir les deux (intelligence parfaite + prévisibilité parfaite) avec un seul robot, l'auteur propose une stratégie en deux étapes :

Pour les tâches critiques (comme l'audit ou la conformité) : Utilisez les petits robots rigides. Même s'ils sont moins "intelligents", leur prévisibilité permet de prouver aux régulateurs que le système est stable. On peut les "réparer" plus tard pour les rendre plus intelligents, mais d'abord, il faut qu'ils soient fiables.
Pour les tâches d'analyse : Utilisez les grands génies, mais gardez un humain à côté pour vérifier chaque décision. L'humain sert de "garant de la prévisibilité".

🎯 En Résumé

Ce papier nous dit : "Ne vous fiez pas uniquement à l'intelligence d'une IA." Dans la finance, si vous ne pouvez pas reproduire le résultat à l'identique, ce n'est pas un outil fiable, peu importe à quel point il semble brillant. Il faut d'abord garantir que le robot est un "moule à gâteaux" (toujours le même résultat), avant de lui demander de devenir un "chef cuisinier".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Le Défi de la Reproductibilité Réglementaire

L'adoption rapide des agents LLM (Large Language Models) dans les services financiers (tri de conformité, rééquilibrage de portefeuille, rapports réglementaires) se heurte à un obstacle majeur pour les institutions régulées : l'absence de reproductibilité stricte.

Le Conflit : Lorsqu'un régulateur demande de reproduire une décision (ex: « Pourquoi cette transaction a-t-elle été signalée ? »), le système doit fournir exactement la même sortie avec les mêmes entrées. Or, la plupart des déploiements d'agents échouent à garantir cette cohérence, même avec une température de zéro ( $T=0.0$ ).
La Complexité Agentique : Contrairement aux tâches de génération de texte simples, les agents utilisent des outils en plusieurs étapes (trajectoires). Une décision finale peut être identique, mais la séquence d'appels d'outils (la trajectoire) peut varier, rendant l'audit impossible.
Le Dilemme : Il existe une croyance implicite que la précision (accuracy) et la reproductibilité (déterminisme) sont corrélées. Si tel était le cas, mesurer l'un suffirait. L'article démontre que cette hypothèse est fausse dans le contexte des agents financiers.

2. Méthodologie : Le Cadre DFAH

Les auteurs introduisent le DFAH (Determinism-Faithfulness Assurance Harness), un cadre d'évaluation conçu pour mesurer indépendamment le déterminisme et la fidélité des agents utilisant des outils.

A. Définitions Métriques

Le cadre distingue plusieurs niveaux de déterminisme :

Déterminisme de l'Action (Action Determinism) : Fraction des exécutions avec la même séquence d'outils.
Déterminisme de la Signature (Signature Determinism) : Fraction des exécutions avec la même séquence d'outils ET les mêmes arguments.
Déterminisme de la Décision (Decision Determinism) : Fraction des exécutions aboutissant à la même décision finale.

Distinction Critique : Pass@k vs Passk

Pass@k (Optimiste) : Probabilité d'au moins une réussite sur $k$ essais (standard en ingénierie logicielle).
Passk (Conservateur) : Probabilité que tous les $k$ essais réussissent.
Conclusion : Pour la conformité financière, seul le Passk est pertinent. Un régulateur s'attend à ce que chaque décision historique soit reproductible, pas seulement une sur $k$ .

B. Mesure de la Fidélité (Faithfulness)

La fidélité est définie comme l'alignement de la décision avec les preuves récupérées (evidence grounding) plutôt qu'avec un raisonnement fabriqué.

Approche : Utilisation d'une heuristique lexicale/sémantique (similitude Jaccard, correspondance d'entités) pour vérifier si les affirmations de l'agent sont étayées par les documents récupérés.
Principe : Privilégier la précision (éviter les faux positifs de fidélité) plutôt que le rappel, car un audit ne doit jamais valider une justification fabriquée.

C. Expérimentation à Grande Échelle

Données : 4 700+ exécutions d'agents.
Modèles : 7 modèles (4 fournisseurs : IBM, Anthropic, Google, OpenAI) classés en 4 niveaux (Tier 1 à Tier 3 + Frontier).
Benchmarks : 3 tâches financières avec vérité terrain (50 cas chacune) :
1. Tri de Conformité (Compliance Triage) : Décider d'escalader, rejeter ou enquêter.
2. Contraintes de Portefeuille (Portfolio Constraint) : Valider des trades contre des limites réglementaires.
3. Exceptions DataOps : Résolution d'erreurs dans les pipelines de données.
Scénarios de Stress : Injection de pannes de données, déploiements redémarrés, chocs de marché, données obsolètes.

3. Résultats Clés

A. Absence de Corrélation Déterminisme-Précision

L'analyse statistique sur 21 configurations (modèles x benchmarks) révèle aucune corrélation détectable entre le déterminisme et la précision de la tâche :

Corrélation de Pearson : $r = -0.11$ (IC 95% : $[-0.49, 0.31]$ , $p = 0.63$ ).
Implication : Un modèle peut être parfaitement déterministe mais totalement inexact, et inversement. Les deux métriques doivent être mesurées indépendamment.

B. Profils des Modèles par Niveau (Tier)

Modèles Tiers 1 (7–20B paramètres, ex: Qwen2.5-7B, Granite-8B) :
- Déterminisme : Quasi-parfait (94–100%).
- Précision : Faible (20–42%).
- Cause : Ils fonctionnent par « matching de motifs » rigide (ex: répondre systématiquement « enquêter » à 76% des cas). Ils sont déterministes par manque de complexité décisionnelle, non par raisonnement robuste.
Modèles Frontier (Claude Opus/Sonnet, Gemini 2.5) :
- Déterminisme : Modéré à faible (50–96%).
- Précision : Variable mais souvent supérieure (14–69%).
- Comportement : Ils explorent des trajectoires d'outils diverses pour arriver à la même décision (« Même conclusion, raisonnement différent »). La signature (séquence d'outils) varie fortement même si la décision finale est stable.
Modèles Tiers 3 (>120B) :
- Déterminisme très faible (<20%), inadaptés aux tâches autonomes critiques.

C. Impact de l'Architecture

L'architecture « Schema-First » (sortie structurée via JSON) améliore significativement le déterminisme par rapport aux agents « Unconstrained » (raisonnement libre), sans sacrifier la performance de manière drastique.

4. Contributions Principales

Cadre DFAH : Une infrastructure open-source formalisant les définitions de déterminisme de trajectoire, de décision et de fidélité conditionnée aux preuves.
Preuve Empirique de l'Indépendance : Démonstration statistique que le déterminisme ne prédit pas la précision, invalidant les approches d'évaluation basées sur une seule métrique.
Caractérisation du Compromis (Trade-off) : Identification claire du compromis entre les petits modèles (déterministes mais peu précis) et les modèles de pointe (précis mais variables).
Recommandations de Déploiement :
- Tâches critiques (AML, Reporting) : Privilégier les modèles Tier 1 avec architecture Schema-First pour garantir la reproductibilité (Passk), même avec une précision modérée.
- Tâches d'analyse/Conseil : Utiliser les modèles Frontier avec supervision humaine (Human-in-the-Loop) pour gérer la variance.

5. Signification et Impact

Cet article est crucial pour l'industrie financière régulée car il remet en question la priorité donnée à la « performance brute » des LLM.

Pour les Auditeurs : Il fournit un cadre pour vérifier qu'un système ne se contente pas de « deviner » juste une fois, mais qu'il applique une logique reproductible. Un agent déterministe qui se trompe est préférable à un agent précis mais imprévisible, car l'erreur peut être corrigée et l'audit est possible.
Pour les Développeurs : Il met en évidence que l'utilisation d'outils (tool-use) introduit une variance de trajectoire qui n'existe pas dans la génération de texte simple.
Alignement Réglementaire : Le cadre s'aligne sur les exigences croissantes (AI Act de l'UE, directives de la Fed/NIST) qui exigent la traçabilité et la reproductibilité des décisions à haut risque.

Conclusion : Pour les agents financiers, la reproductibilité (déterminisme) est une condition sine qua non de la conformité, distincte et non corrélée à la précision. Le DFAH offre les outils nécessaires pour mesurer et garantir cette propriété avant tout déploiement en production.