Over-Searching in Search-Augmented Large Language Models

Diese Arbeit untersucht das Problem des übermäßigen Suchens in suchaugmentierten Large Language Models, führt mit „Tokens Per Correctness" eine neue Metrik zur Bewertung des Kosten-Nutzen-Verhältnisses ein und stellt den OverSearchQA-Datensatz sowie Lösungsansätze vor, um die Effizienz und Genauigkeit dieser Systeme zu verbessern.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra

Veröffentlicht 2026-03-12
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen, mit ein paar kreativen Vergleichen.

Das Problem: Der "Suche-um-jeden-Preis"-Effekt

Stell dir vor, du hast einen sehr intelligenten Assistenten (eine KI), der ein riesiges Wissen in seinem Kopf hat. Manchmal weiß er die Antwort sofort. Aber manchmal denkt er: "Hmm, ich bin mir nicht sicher, ich sollte mal schnell googeln."

Das ist eigentlich gut! Aber das Problem, das diese Forscher von Apple und der Duke University entdeckt haben, ist, dass dieser Assistent zu viel googelt.

Die Analogie:
Stell dir vor, du fragst deinen Assistenten: "Wer wird im Jahr 2075 der Präsident der USA sein?"
Ein vernünftiger Mensch würde sagen: "Keine Ahnung, das ist die Zukunft, das kann niemand wissen."

Der KI-Assistent mit Suchfunktion macht aber folgendes:

  1. Er googelt sofort.
  2. Er liest Artikel über aktuelle Wahlen.
  3. Er sucht nach Trends.
  4. Er schreibt einen langen Bericht über Wahrscheinlichkeiten.
  5. Am Ende sagt er vielleicht sogar eine falsche Zahl oder einen falschen Namen, nur weil er so viel gelesen hat, dass er sich unsicher geworden ist.

Das nennt die Forscher "Over-Searching" (Über-Suchen). Der Assistent sucht so lange, bis er die Antwort findet – auch wenn es gar keine Antwort gibt. Das kostet Zeit, Geld (Rechenleistung) und führt oft zu Halluzinationen (Erfindungen).

Was haben die Forscher getan?

Sie haben einen neuen Test namens OverSearchQA gebaut. Das ist wie ein Prüfungsheft für KIs, das zwei Arten von Fragen enthält:

  1. Beantwortbare Fragen: "Wie viele Eier legt ein Tiger?" (Falsche Frage, Tiger sind Säugetiere).
  2. Unbeantwortbare Fragen: "Wie viele Eier legt ein Tiger?" (Richtig, aber die Frage ist Unsinn).

Sie wollten sehen: Erkennt die KI, dass sie nicht suchen muss? Oder sucht sie trotzdem blindlings weiter?

Die wichtigsten Entdeckungen (in einfachen Worten)

1. Suchen hilft bei Fakten, schadet aber bei "Ich weiß es nicht"
Wenn die Antwort existiert (z. B. "Wer hat den Weltrekord im 100m-Lauf?"), dann ist Suchen super. Die KI wird besser.
Aber wenn die Frage unsinnig ist (z. B. "Wie viele Flügel hat ein Einhorn?"), dann macht das Suchen die KI schlechter. Statt zu sagen "Das gibt es nicht", sucht sie so lange, bis sie etwas findet, das wie eine Antwort aussieht, und erfindet dann etwas.

2. Je "dümmer" (komplexer) die KI, desto schlimmer das Problem
Die Forscher haben festgestellt, dass KIs, die besonders gut im "Nachdenken" sind (wie die neuen Reasoning-Modelle), noch mehr dazu neigen, übermäßig zu suchen. Sie denken so viel nach, dass sie denken, sie müssten noch mehr suchen, um sicher zu sein. Es ist, als würde jemand, der ein Rätsel löst, immer weiter im Kreis laufen, anstatt zu erkennen, dass das Rätsel gar nicht lösbar ist.

3. Der "Schneeball-Effekt" in Gesprächen
Wenn man mit der KI ein langes Gespräch führt, wird das Problem schlimmer. Wenn die KI in den ersten 5 Fragen immer Antworten gefunden hat, denkt sie: "Ah, ich bin gut im Suchen!" und sucht dann auch bei der 6. Frage (die eigentlich unbeantwortbar ist) weiter. Der Schneeball rollt und wird immer größer.

4. Negative Beweise sind Gold wert
Das Interessanteste: Wenn die KI bei ihrer Suche auf Texte stößt, die sagen "Das gibt es nicht" oder "Niemand weiß das", dann gibt sie auf und sagt "Ich weiß es nicht". Das Problem ist nur: Im Internet gibt es viel mehr Texte, die Antworten suggerieren, als Texte, die sagen "Das ist unmöglich". Die KI wird also von der Menge der Informationen überrollt.

Eine neue Messgröße: "Tokens pro Richtigkeit"

Die Forscher haben eine neue Art gemessen, wie effizient die KI ist. Sie nennen es TPC (Tokens Per Correctness).
Stell dir das wie den Kraftstoffverbrauch pro Kilometer bei einem Auto vor.

  • Ein gutes Auto (eine gute KI) verbraucht wenig Benzin (wenige Suchschritte), um ans Ziel zu kommen.
  • Eine KI mit "Over-Searching" fährt 100 Kilometer im Kreis, nur um festzustellen, dass sie am Ziel ist. Das kostet extrem viel Benzin (Rechenleistung), bringt aber keinen Vorteil.

Was kann man dagegen tun?

Die Forscher haben ein paar Tricks ausprobiert:

  • Bessere Anweisungen: Man kann der KI sagen: "Wenn du nicht sicher bist, sag einfach 'Ich weiß es nicht'." Das hilft ein bisschen.
  • Beispiele geben: Man zeigt der KI Beispiele, wie man "Nein" sagt. Das hilft auch, aber manchmal wird die KI dann zu vorsichtig und sagt auch bei richtigen Fragen "Ich weiß es nicht".
  • Die Datenbank füllen: Man könnte die Suchdatenbank mit mehr Texten füllen, die sagen "Das ist unmöglich". Das hilft, ist aber schwer umzusetzen.

Das Fazit

Die KI ist wie ein sehr eifriger Bibliothekar. Wenn du nach einem Buch fragst, das es gibt, findet er es super schnell. Aber wenn du nach einem Buch fragst, das es gar nicht gibt, sucht er stundenlang in den Regalen, liest tausende Seiten durch und gibt dir am Ende vielleicht ein Buch, das gar nicht das richtige ist, nur weil er so lange gesucht hat.

Die Botschaft der Studie ist: Man muss KIs beibringen, wann sie aufhören sollen zu suchen. Nicht jedes Problem braucht eine Google-Suche. Manchmal ist "Ich weiß es nicht" die beste und effizienteste Antwort.