FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen hochintelligenten, aber manchmal etwas verwirrten Assistenten, der Ihnen helfen soll, die Finanzen von Unternehmen zu verstehen. Sie fragen ihn: „Wie viel Geld hat Apple im dritten Quartal 2024 verdient?"

Der Assistent soll diese Zahl aus einer riesigen, perfekt organisierten Datenbank holen. Aber wie gut ist er wirklich darin? Genau das haben die Autoren der Studie „FinRetrieval" herausfinden wollen.

Hier ist die Geschichte ihrer Entdeckungen, einfach erklärt:

1. Das Problem: Der Assistent ohne Werkzeugkasten

Bisher gab es Tests, bei denen man dem Assistenten einen Stapel Papier (Dokumente) gab und fragte, ob er die Zahlen darin lesen und addieren konnte. Aber im echten Leben muss ein Finanz-Assistent oft nicht lesen, sondern suchen. Er muss in einer Datenbank nachschauen, wie man in einem Supermarkt im Regal nach der richtigen Dose Suppe sucht.

Die Forscher haben einen neuen Test entwickelt: FinRetrieval. Sie stellten 500 Fragen an verschiedene KI-Modelle (von Firmen wie Anthropic, OpenAI und Google) und schauten genau hin, wie sie suchten.

2. Die große Entdeckung: Der Werkzeugkasten ist wichtiger als der Kopf

Das überraschendste Ergebnis war: Es ist egal, wie schlau der Assistent ist, wenn er keine Werkzeuge hat.

Szenario A (Mit Werkzeugen): Der Assistent hat einen direkten Schlüssel zur Datenbank (eine API). Er kann die Tür öffnen, das Regal finden und die Dose nehmen.
- Ergebnis: Fast alle Assistenten waren zu 90 % richtig.
Szenario B (Nur Internet-Suche): Der Assistent darf nur im Internet herumklicken, wie wir es tun. Er muss Google nutzen, um die Zahl zu finden.
- Ergebnis: Hier wurde es chaotisch. Ein Assistent (Claude) fiel von 90 % auf nur 20 % richtig! Ein anderer (Google) schaffte immerhin noch 69 %.

Die Analogie: Stellen Sie sich vor, Sie müssen einen bestimmten Brief in einem riesigen Archiv finden.

Mit dem Schlüssel zur Datenbank (Szenario A) gehen Sie direkt zum Regal und holen ihn. Das macht jeder gut.
Ohne Schlüssel (Szenario B) müssen Sie durch das ganze Gebäude laufen, in jedem Raum nachsehen und hoffen, dass jemand den Brief auf einem Tisch liegen lässt. Ein sehr intelligenter Assistent (Claude) wurde dabei so unsicher, dass er sagte: „Ich finde es nicht sicher genug, ich gebe auf", während ein anderer (Google) einfach weiter suchte und oft fündig wurde.

Fazit: Die Fähigkeit, die richtigen Werkzeuge zu benutzen, ist 3- bis 4-mal wichtiger als die Intelligenz des Modells selbst.

3. Der „Nachdenk"-Modus: Nicht immer besser

Viele KIs haben einen Modus, bei dem sie „nachdenken", bevor sie antworten (wie wenn man eine Matheaufgabe erst im Kopf durchrechnet).

Bei einem Modell (OpenAI) half dieses Nachdenken sehr viel (+9 % Punkte).
Bei einem anderen (Claude) half es kaum (+2,8 % Punkte).

Warum? Nicht weil Claude dümmer ist. Sondern weil Claude im „Normalmodus" schon sehr gut darin war, die Werkzeuge zu nutzen. OpenAI hingegen machte im Normalmodus mehr Fehler beim Suchen, und das „Nachdenken" half ihm, diese Such-Fehler zu korrigieren.
Die Metapher: Wenn Sie schon ein guter Navigator sind, bringt Ihnen ein GPS wenig. Wenn Sie sich oft verlaufen, ist das GPS (das Nachdenken) ein riesiger Gewinn.

4. Der geografische Trick: Es liegt nicht am Land, sondern am Kalender

Die KIs waren bei US-Firmen etwas besser als bei Firmen aus anderen Ländern (z. B. Japan oder Indien).
Der Grund? Es liegt nicht daran, dass die KI Japan nicht mag. Es liegt am Kalender.

In den USA endet das Geschäftsjahr oft im Dezember.
In Japan endet es oft im März.
Die KI verwechselte oft, was „2023" bedeutet. Für die KI war 2023 das Jahr, das im Dezember endete. Für die japanische Firma war 2023 das Jahr, das im März endete.

Die Analogie: Es ist, als würde jemand nach dem „Winter 2023" fragen. In Europa meinen wir Dezember bis Februar. In Australien meinen sie Juni bis August. Wenn die KI nicht weiß, woher die Firma kommt, sucht sie im falschen Winter. Das ist ein Problem der Daten, nicht der Intelligenz.

5. Warum scheitern sie? (Die Fehleranalyse)

Die Forscher schauten sich an, wo die KIs scheiterten. Die häufigste Fehlerquelle war Verwirrung über Zeiträume.
Die KI fragte nach dem „Jahr 2023", aber die Datenbank hatte die Daten unter „Jahr 2022" gespeichert (weil das Geschäftsjahr im März 2023 endete). Die KI wusste die Antwort nicht, weil die Beschriftung auf dem Regal anders war als auf ihrer Frage.

Was bedeutet das für die Zukunft?

Die Studie sagt uns drei wichtige Dinge:

Werkzeuge sind König: Wenn wir KI im Finanzbereich nutzen wollen, müssen wir ihr direkten Zugriff auf saubere Datenbanken geben. Nichts ist wichtiger als das.
Nachdenken hilft nur, wenn man es braucht: Wenn die KI schon gut sucht, bringt „Nachdenken" wenig. Wenn sie schlecht sucht, hilft es sehr.
Wir müssen die Sprache der Daten verbessern: Die KI scheitert oft nicht, weil sie dumm ist, sondern weil die Beschriftungen in den Datenbanken (z. B. „Jahresanfang" vs. „Jahresende") verwirrend sind. Wenn wir die Anweisungen für die KI klarer schreiben, können wir die Fehlerquote drastisch senken.

Zusammenfassend: Ein Finanz-Assistent ist wie ein Bibliothekar. Wenn er den Schlüssel zum Archiv hat, findet er das Buch immer. Wenn er nur im Internet suchen darf, verirrt er sich schnell – egal wie schlau er ist. Und manchmal muss man ihm nur sagen: „Achtung, in Japan heißt das Jahr anders!", damit er den richtigen Weg findet.

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

1. Das Problem: Der Assistent ohne Werkzeugkasten

2. Die große Entdeckung: Der Werkzeugkasten ist wichtiger als der Kopf

3. Der „Nachdenk"-Modus: Nicht immer besser

4. Der geografische Trick: Es liegt nicht am Land, sondern am Kalender

5. Warum scheitern sie? (Die Fehleranalyse)

Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik: FinRetrieval Benchmark

3. Schlüsselbeiträge

4. Wichtige Ergebnisse und Erkenntnisse

A. Verfügbarkeit von Tools dominiert die Leistung

B. Reasoning-Modi variieren invers zur Basis-Leistung

C. Erfolg beim ersten Abruf treibt die Effizienz

D. Geografische Leistungslücken sind Datenkonventionen geschuldet

5. Fehleranalyse

6. Bedeutung und Implikationen

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

1. Das Problem: Der Assistent ohne Werkzeugkasten

2. Die große Entdeckung: Der Werkzeugkasten ist wichtiger als der Kopf

3. Der „Nachdenk"-Modus: Nicht immer besser

4. Der geografische Trick: Es liegt nicht am Land, sondern am Kalender

5. Warum scheitern sie? (Die Fehleranalyse)

Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik: FinRetrieval Benchmark

3. Schlüsselbeiträge

4. Wichtige Ergebnisse und Erkenntnisse

A. Verfügbarkeit von Tools dominiert die Leistung

B. Reasoning-Modi variieren invers zur Basis-Leistung

C. Erfolg beim ersten Abruf treibt die Effizienz

D. Geografische Leistungslücken sind Datenkonventionen geschuldet

5. Fehleranalyse

6. Bedeutung und Implikationen

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

Homotopy type theory as a language for diagrams of $\infty$ -logoses