Nonstandard Errors in AI Agents

Die Studie zeigt, dass autonome KI-Agenten bei der Analyse derselben Daten zu signifikant unterschiedlichen Ergebnissen führen, wobei diese „nichtstandardisierten Fehler" durch Nachahmung und nicht durch echtes Verständnis reduziert werden können.

Ruijiang Gao, Steven Chong Xiao

Veröffentlicht 2026-03-18
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie beauftragen 150 verschiedene Detektive, denselben Fall zu lösen. Sie geben ihnen alle das gleiche Tatortfoto (die Daten) und dieselbe Frage: „Wie hat sich die Lage im Laufe der Zeit verändert?"

Die überraschende Erkenntnis aus dieser Studie ist: Selbst wenn alle Detektive die gleichen Informationen haben, kommen sie zu völlig unterschiedlichen Schlussfolgerungen.

Hier ist die Geschichte der Studie, einfach erklärt:

1. Das Experiment: 150 KI-Detektive

Die Forscher haben 150 autonome KI-Agenten (eine Art super-intelligenter Computer-Programme, die wie echte Forscher arbeiten können) eingesetzt. Diese KI-Systeme sollten den Aktienmarkt der USA (SPY) zwischen 2015 und 2024 analysieren.

Sie sollten sechs Fragen beantworten, zum Beispiel:

  • „Ist der Markt effizienter geworden?"
  • „Ist das Handelsvolumen gestiegen?"
  • „Wie stark beeinflussen Trades den Preis?"

Jeder KI-Agent arbeitete allein, schrieb einen Forschungsbericht, erstellte Grafiken und lieferte eine Zahl als Ergebnis.

2. Das Problem: Der „Weg der Gabelungen"

Das Interessante ist, dass die KIs nicht einfach zufällig danebenlagen. Sie wählten unterschiedliche Werkzeuge für ihre Analyse.

Stellen Sie sich vor, Sie wollen messen, wie viel Wasser in einem Fluss fließt.

  • KI-Detektiv A misst das Gewicht des Wassers (Dollar-Volumen).
  • KI-Detektiv B misst die Anzahl der Wassertropfen (Share-Volumen).

Da der Preis der Aktien in den Jahren gestiegen ist, war das Gewicht des Wassers viel größer, obwohl die Anzahl der Tropfen vielleicht sogar gesunken ist.

  • Detektiv A sagt: „Der Fluss ist riesig gewachsen!" (+6 % pro Jahr).
  • Detektiv B sagt: „Der Fluss ist geschrumpft!" (-5 % pro Jahr).

Beide hatten recht, aber sie maßen etwas anderes. In der Studie nannten die Forscher diese Unterschiede „Nicht-Standard-Fehler". Es ist nicht der Fehler, dass die KI dumm ist, sondern der Fehler, dass die Frage nicht genau genug war, um nur ein einziges Werkzeug vorzuschreiben.

3. Die „Persönlichkeiten" der KIs

Die Forscher stellten fest, dass die KIs nicht alle gleich sind. Sie haben unterschiedliche „Stile", ähnlich wie Menschen.

  • Die Sonnet-KI mochte bestimmte Messmethoden (z. B. Autokorrelation).
  • Die Opus-KI mochte ganz andere (z. B. Varianzverhältnisse).

Es war, als würde eine Gruppe von Architekten, die alle mit demselben Bauplan arbeiten, aber die einen lieber aus Holz bauen und die anderen lieber aus Stahl. Das Ergebnis ist ein unterschiedliches Gebäude, obwohl der Plan derselbe war.

4. Der Versuch, sie zu einigen: Feedback vs. Vorbilder

Die Forscher ließen die KIs in drei Runden arbeiten, um zu sehen, ob sie sich einigen können:

  • Runde 1: Jeder arbeitet allein. -> Große Unterschiede.
  • Runde 2: Die KIs bekommen schriftliches Feedback von anderen KIs („Ihre Methode ist vielleicht nicht gut").
    • Ergebnis: Das half gar nicht. Die KIs änderten ihre Methoden wild durcheinander, ohne sich zu einigen. Es war wie ein Gespräch, bei dem jeder nur sein eigenes Ding macht.
  • Runde 3: Die KIs durften sich die fünf besten Berichte der anderen ansehen.
    • Ergebnis: Hier passierte Magie. Die KIs kopierten die besten Beispiele. Wenn die Top-Reports eine bestimmte Methode nutzten, sprangen fast alle KIs darauf auf. Die Unterschiede schrumpften dramatisch (bis zu 99 %).

Aber Achtung: Manchmal war das Kopieren auch schlecht. Wenn die „Top-Reports" selbst uneinig waren, gerieten die KIs in Panik und wählten willkürlich verschiedene Methoden. Sie kopierten nur, ohne wirklich zu verstehen, warum eine Methode besser war.

5. Was lernen wir daraus?

Diese Studie ist wie ein Spiegel für die Zukunft der Forschung mit KI:

  1. Vertraue nicht auf eine einzige KI-Antwort: Wenn Sie eine KI fragen, wie sich etwas entwickelt hat, kann die Antwort davon abhängen, welches „Werkzeug" die KI zufällig gewählt hat. Eine einzelne Zahl ist kein absolutes Faktum.
  2. KI-Peer-Review funktioniert anders: Wenn Menschen Feedback bekommen, überlegen sie nach. KIs scheinen Feedback eher als Aufforderung zu sehen, alles umzuwerfen, ohne sich zu einigen.
  3. Das Problem liegt oft in der Frage: Viele der Unterschiede kamen nicht von der KI, sondern weil die Frage zu vage war („Wie viel Volumen?"). Die KI zeigt uns also genau, wo unsere Fragen ungenau sind.
  4. KI ist kein Fehler, sondern ein Warnsignal: Die Tatsache, dass die KIs unterschiedliche Ergebnisse liefern, ist eigentlich gut. Es zeigt uns, dass es in der Wissenschaft oft keine eine richtige Antwort gibt, sondern viele plausible Wege. Die KI hat gelernt, dass die Wissenschaft selbst uneinig ist.

Fazit:
KI-Agenten sind mächtige Werkzeuge, aber sie sind keine Orakel, die eine einzige Wahrheit ausspucken. Sie sind eher wie ein Schwarm von Experten, die alle unterschiedliche Perspektiven haben. Um die Wahrheit zu finden, müssen wir nicht nur eine KI fragen, sondern viele verschiedene Modelle gleichzeitig laufen lassen und schauen, wo sie sich einig sind und wo nicht. Das nennt man „Multiversum-Analyse" – man schaut sich alle möglichen Welten an, nicht nur eine.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →