Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Each language version is independently generated for its own context, not a direct translation.

🎭 Der „Zuverlässige Kellner" vs. Der „Geniale, aber chaotische Koch"

Eine einfache Erklärung des Papers über KI-Agenten in der Finanzwelt

Stellen Sie sich vor, Sie arbeiten in einer Bank. Sie müssen entscheiden, ob eine Geldüberweisung sicher ist oder ob sie verdächtig ist. Dafür nutzen Sie einen KI-Assistenten (einen „Agenten"), der wie ein digitaler Mitarbeiter arbeitet. Er schaut sich Daten an, ruft Informationen ab und trifft eine Entscheidung.

Das Problem? Wenn ein Prüfer (ein Auditor) morgen fragt: „Warum hast du diese Überweisung gestoppt? Zeig mir den Beweis!", muss der KI-Assistent exakt dieselbe Entscheidung treffen, wenn man ihm die exakt gleichen Daten gibt.

Das ist wie bei einem Koch:

Wenn Sie ihm heute sagen: „Mach mir eine Suppe mit Tomaten", und er macht eine köstliche Suppe.
Wenn Sie ihm morgen genau dieselben Zutaten geben, muss er genau dieselbe Suppe machen.
Wenn er morgen plötzlich eine Suppe mit Bananen macht, ist das für eine Bank katastrophal. Das nennt man fehlende Reproduzierbarkeit.

Das Paper von Raffi Khatchadourian untersucht genau dieses Problem und stellt ein neues Werkzeug vor, um KI-Assistenten zu testen.

🛠️ Das Werkzeug: Der „Determinismus-Faithfulness-Check" (DFAH)

Der Autor hat ein neues Test-Set entwickelt, das wie ein strenger Prüflabor-Arbeitsplatz funktioniert. Es prüft zwei Dinge:

Der „Zuverlässigkeits-Test" (Determinismus):
- Die Frage: Wenn ich den Test 100 Mal mit den gleichen Daten wiederhole, kommt jedes Mal das exakt gleiche Ergebnis heraus?
- Die Analogie: Ein Automat, der immer genau denselben Kaffee ausschenkt. Egal ob Sie ihn heute oder in einem Jahr drücken.
- Das Ziel: In der Finanzwelt ist das überlebenswichtig. Wenn die KI heute „Ja" sagt und morgen „Nein" bei denselben Daten, ist sie für die Aufsichtsbehörden wertlos.
Der „Wahrheits-Test" (Faithfulness):
- Die Frage: Hat die KI ihre Entscheidung auf echte Beweise gestützt oder hat sie einfach etwas erfunden (halluziniert)?
- Die Analogie: Ein Anwalt, der vor Gericht sagt: „Mein Mandant ist unschuldig, weil..." und dann eine Geschichte erfindet, die niemand beweisen kann. Das ist gefährlich. Er muss sagen: „Unsere Akten zeigen..." und auf echte Dokumente verweisen.

🧪 Das große Experiment: Was haben sie herausgefunden?

Der Autor hat über 4.700 Tests mit verschiedenen KI-Modellen (von kleinen bis zu riesigen „Frontier"-Modellen) durchgeführt. Das Ergebnis war überraschend und wichtig:

1. Zuverlässigkeit und Richtigkeit sind keine Freunde

Man dachte bisher: „Wenn eine KI sehr klug ist (hohe Genauigkeit), ist sie auch sehr zuverlässig."
Das Paper sagt: Falsch!

Es gibt keinen Zusammenhang zwischen „immer das Gleiche machen" und „das Richtige machen".
Die Analogie: Ein Schüler, der immer die gleiche falsche Antwort gibt (sehr zuverlässig, aber dumm), ist für eine Prüfung besser als ein Schüler, der manchmal die richtige und manchmal die falsche Antwort gibt (intelligent, aber unzuverlässig).
Ergebnis: Man muss beide Dinge getrennt prüfen. Man kann nicht einfach annehmen, dass eine „kluge" KI auch „zuverlässig" ist.

2. Die kleinen Modelle sind die „Roboter", die großen sind die „Künstler"

Kleine Modelle (7–20 Milliarden Parameter):
- Sie sind wie starre Roboter. Sie machen fast immer exakt das Gleiche (100% Zuverlässigkeit).
- Aber: Sie sind oft nicht sehr schlau. Sie erkennen Muster stur und treffen oft falsche Entscheidungen (nur 20–40% Richtigkeit).
- Beispiel: Sie sagen bei fast jeder verdächtigen Transaktion „Untersuchen!", egal ob es wirklich verdächtig ist.
Große „Frontier"-Modelle (die neuesten, teuersten KIs):
- Sie sind wie kreative Künstler. Sie denken wirklich nach, nutzen verschiedene Werkzeuge und treffen oft die richtige Entscheidung (hohe Richtigkeit).
- Aber: Sie sind chaotisch. Wenn Sie sie zweimal mit denselben Daten füttern, nehmen sie vielleicht einen anderen Weg, um zum Ergebnis zu kommen, oder sagen sogar etwas anderes.
- Beispiel: Einmal sagen sie „Untersuchen", das andere Mal „Ignorieren", obwohl die Daten gleich sind.

3. Das „Goldene Dreieck" existiert nicht

Es gibt keine KI, die sowohl 100% zuverlässig als auch 100% richtig ist.

Entweder man hat einen zuverlässigen Dummkopf (kleine Modelle).
Oder einen genialen, aber unberechenbaren Künstler (große Modelle).
Die Lösung: Man muss beides messen und entscheiden, was man braucht.

💡 Was bedeutet das für die Praxis? (Die Empfehlungen)

Das Paper gibt klare Ratschläge, wie Banken KI einsetzen sollten:

Für strenge Prüfungen (z. B. Geldwäsche-Prüfung):
Nutzen Sie kleine, spezialisierte Modelle mit strengen Regeln (Schema-first).
- Warum? Es ist besser, eine KI zu haben, die immer die gleiche (vielleicht etwas vorsichtige) Entscheidung trifft, als eine, die sich jeden Tag ändert. Die Aufsichtsbehörde will wissen: „Wenn wir das heute nochmal machen, kommt das Gleiche raus?"
- Analogie: Ein Stempel, der immer das Gleiche druckt, ist besser als ein Künstler, der jedes Mal ein neues Bild malt.
Für Beratung und Recherche:
Hier können Sie die großen, klugen Modelle nutzen.
- Warum? Hier ist es okay, wenn die KI mal einen anderen Weg geht, solange ein Mensch am Ende drüberschaut und die Entscheidung bestätigt.
- Analogie: Ein genialer Koch, der neue Rezepte erfindet, ist toll für ein Restaurant, aber nicht für eine Fabrik, die jeden Tag exakt dieselbe Dose Suppe produzieren muss.

🚀 Fazit in einem Satz

Für die Finanzwelt ist es wichtiger, dass eine KI vorhersehbar ist (man weiß, was sie tut), als dass sie genial ist (man weiß nicht, ob sie morgen wieder anders denkt). Das neue Werkzeug hilft Banken herauszufinden, welche KI für welchen Job sicher genug ist.

Der wichtigste Takeaway: Vertrauen Sie nicht nur auf die „Intelligenz" einer KI. Prüfen Sie, ob sie sich wie ein verlässlicher Automat verhält, bevor Sie ihr Geld oder Gesetze anvertrauen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papiers „Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents" von Raffi Khatchadourian (IBM, März 2026) auf Deutsch.

1. Problemstellung

Große Sprachmodelle (LLM) werden zunehmend für finanzielle Entscheidungsprozesse eingesetzt (z. B. Compliance-Triage, Portfolio-Neugewichtung). Ein zentrales Hindernis für den regulatorischen Einsatz ist jedoch die mangelnde Reproduzierbarkeit. Wenn Regulierungsbehörden verlangen, dass ein System eine markierte Transaktionsentscheidung mit identischen Eingaben erneut durchführt, scheitern die meisten aktuellen Bereitstellungen daran, konsistente Ergebnisse zu liefern.

Das Paper identifiziert zwei kritische, aber oft verwechselte Anforderungen:

Determinismus: Die Fähigkeit, bei identischen Eingaben exakt denselben Ausgang (Entscheidung und/oder Pfad) zu produzieren.
Treue (Faithfulness): Die Gewissheit, dass die Entscheidung auf tatsächlich abgerufenen Beweisen basiert und nicht auf halluzinierter Logik.

Bisherige Studien zeigten Output-Drift, aber im Kontext von Agenten, die mehrstufige Tool-Aufrufe tätigen, ist die Komplexität höher: Selbst wenn die finale Entscheidung übereinstimmt, kann die zugrunde liegende Trajektorie (Reihenfolge der Tool-Aufrufe) variieren. Dies macht eine einfache „Pass@k"-Metrik (mindestens ein Erfolg in k Versuchen) für Compliance-Zwecke unzureichend; stattdessen wird eine „Passk"-Metrik (alle k Versuche müssen erfolgreich sein) benötigt.

2. Methodik: Das DFAH-Framework

Die Autoren stellen das Determinism-Faithfulness Assurance Harness (DFAH) vor, ein Evaluierungsframework, das speziell für toolnutzende Agenten in Finanzdienstleistungen entwickelt wurde.

Kernkomponenten:

Definitionen:
- Aktionsdeterminismus: Identische Tool-Sequenzen.
- Signaturdeterminismus: Identische Tool-Sequenzen mit identischen Argumenten.
- Entscheidungsdeterminismus: Identische finale Entscheidungen.
- Treue (Evidence-Conditioned Faithfulness): Misst, ob Behauptungen in der Begründung mit abgerufenen Beweisen übereinstimmen (mittels lexikalischer/semantischer Heuristik, nicht durch weitere LLMs, um Drift zu vermeiden).
Architektur: Das System besteht aus einem Task-Runner (mit kontrollierter Zufälligkeit, T=0.0), einem Trajektorien-Speicher und einem Grader-Suite (Code-basiert für Determinismus, menschlich/heuristisch für Treue).
Stresstests: Das Framework simuliert reale Störungen wie Neudeployment, Datenqualitätsfehler (NULL, NaN), zeitliche Verschiebungen (veraltete Daten) und Marktschocks.
Benchmarks: Drei Finanz-Benchmarks mit je 50 Ground-Truth-Fällen wurden verwendet:
1. Compliance Triage: Entscheidung über Eskalation, Abweisung oder Untersuchung von Transaktionswarnungen.
2. Portfolio Constraints: Validierung von Trades gegen Positionslimits und Sektorenkappen.
3. DataOps Exception: Behandlung von Ausnahmen in Datenpipelines.

Experimentelles Design:

Umfang: Über 4.700 Agenten-Läufe.
Modelle: 7 Modelle von 4 Anbietern (inkl. Qwen, Granite, Llama, Claude Opus/Sonnet, Gemini 2.0/2.5).
Einteilung in Tiers: Basierend auf beobachtetem Determinismus (Tier 1: 7–20B Parameter, Tier 2: 40–70B, Tier 3: >120B, Frontier: API-Modelle).
Statistik: Bootstrap-Confidence-Intervals (95%) und Korrelationsanalysen (Pearson/Spearman) über 21 Modell-Benchmark-Konfigurationen.

3. Wichtige Beiträge

DFAH-Framework: Eine formale Definition und Open-Source-Implementierung zur Messung von Trajektorien-Determinismus und evidenzbasiertem Treuegrad.
Empirische Entdeckung: Es gibt keine nachweisbare Korrelation zwischen Determinismus und Aufgaben-Genauigkeit ( $r = -0.11$ , $p = 0.63$ ). Modelle können deterministisch, aber ungenau sein (oder umgekehrt).
Skalierungsfaktoren: Die Studie quantifiziert, wie viele Validierungsstichproben pro Modell-Tier benötigt werden, um statistische Zuverlässigkeit zu erreichen (Tier 3 benötigt 3,7-fache Stichprobengröße gegenüber Tier 1).
Architektonische Erkenntnisse: „Schema-First"-Architekturen (strukturierte JSON-Ausgaben) verbessern den Determinismus signifikant im Vergleich zu unconstrained ReAct-Agenten.

4. Ergebnisse

Die Analyse der 4.700+ Läufe ergab folgende Muster:

Keine Korrelation: Determinismus und Genauigkeit sind unabhängig voneinander. Ein einzelner Metrik-Wert reicht nicht aus, um die Eignung eines Agenten zu beurteilen.
Modell-Tier-Profile:
- Tier 1 (Kleine Modelle, 7–20B): Erreichen fast perfekten Determinismus (94–100%) durch starre Mustererkennung.
  - Nachteil: Geringe Genauigkeit (20–42%), da sie oft auf Standardantworten zurückgreifen (z. B. „immer untersuchen").
- Frontier-Modelle (Claude Opus, Gemini Pro): Zeigen moderate Determinismus-Werte (50–96%) und höhere, aber variable Genauigkeit.
  - Phänomen: „Gleiche Schlussfolgerung, unterschiedliche Begründung." Diese Modelle treffen oft die gleiche finale Entscheidung, nutzen aber völlig unterschiedliche Tool-Pfade (niedriger Signaturdeterminismus).
- Tier 3 (Sehr große Modelle): Zeigten extremen Drift (<20% Determinismus) und sind für autonome Compliance-Aufgaben ungeeignet.
Trade-off: Kein Modell erreichte gleichzeitig perfekten Determinismus und hohe Genauigkeit.
Stresstests: Schema-first Architekturen mit Tier-1-Modellen behielten unter Störungen (z. B. Datenfehler) einen hohen Determinismus bei, während Frontier-Modelle stark variieren.

5. Bedeutung und Implikationen

Das Paper hat weitreichende Konsequenzen für den Einsatz von KI in regulierten Umgebungen:

Paradigmenwechsel in der Bewertung: Für Compliance-Zwecke ist Determinismus eine notwendige Voraussetzung, bevor Genauigkeit überhaupt relevant ist. Ein Modell mit 75% Genauigkeit, aber nur 50% Determinismus, ist für Audits unbrauchbar, da das Ergebnis nicht reproduzierbar ist.
Empfehlungen für den Einsatz:
- Tier 1 (7–20B) + Schema-First: Empfohlen für AML (Geldwäschebekämpfung), Compliance-Triage und regulatorische Berichte. Hier wird Reproduzierbarkeit über maximale Intelligenz gestellt.
- Frontier-Modelle: Eingeschränkt einsetzbar, nur mit menschlicher Aufsicht (Human-in-the-Loop) für komplexe Beratungsanfragen, wo die höhere Genauigkeit den Aufwand für die Überwachung rechtfertigt.
Regulatorische Ausrichtung: Das Framework unterstützt die Anforderungen des EU AI Act und US-Banking-Guidelines, die Konsistenz unter identischen Eingaben über marginale Genauigkeitsgewinne stellen. Es definiert den Unterschied zwischen „Pass@k" (Software-Engineering) und „Passk" (Compliance), wobei nur letzteres für Audits akzeptabel ist.

Fazit: Das Paper zeigt, dass kleine, spezialisierte Modelle in Kombination mit strukturierten Ausgaben für kritische Finanzanwendungen oft besser geeignet sind als große Frontier-Modelle, da sie die für regulatorische Audits notwendige Vorhersagbarkeit bieten. Das DFAH-Framework bietet die notwendige Infrastruktur, um diese Eigenschaften vor dem produktiven Einsatz zu validieren.