Over-Searching in Search-Augmented Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen, mit ein paar kreativen Vergleichen.

Das Problem: Der "Suche-um-jeden-Preis"-Effekt

Stell dir vor, du hast einen sehr intelligenten Assistenten (eine KI), der ein riesiges Wissen in seinem Kopf hat. Manchmal weiß er die Antwort sofort. Aber manchmal denkt er: "Hmm, ich bin mir nicht sicher, ich sollte mal schnell googeln."

Das ist eigentlich gut! Aber das Problem, das diese Forscher von Apple und der Duke University entdeckt haben, ist, dass dieser Assistent zu viel googelt.

Die Analogie:
Stell dir vor, du fragst deinen Assistenten: "Wer wird im Jahr 2075 der Präsident der USA sein?"
Ein vernünftiger Mensch würde sagen: "Keine Ahnung, das ist die Zukunft, das kann niemand wissen."

Der KI-Assistent mit Suchfunktion macht aber folgendes:

Er googelt sofort.
Er liest Artikel über aktuelle Wahlen.
Er sucht nach Trends.
Er schreibt einen langen Bericht über Wahrscheinlichkeiten.
Am Ende sagt er vielleicht sogar eine falsche Zahl oder einen falschen Namen, nur weil er so viel gelesen hat, dass er sich unsicher geworden ist.

Das nennt die Forscher "Over-Searching" (Über-Suchen). Der Assistent sucht so lange, bis er die Antwort findet – auch wenn es gar keine Antwort gibt. Das kostet Zeit, Geld (Rechenleistung) und führt oft zu Halluzinationen (Erfindungen).

Was haben die Forscher getan?

Sie haben einen neuen Test namens OverSearchQA gebaut. Das ist wie ein Prüfungsheft für KIs, das zwei Arten von Fragen enthält:

Beantwortbare Fragen: "Wie viele Eier legt ein Tiger?" (Falsche Frage, Tiger sind Säugetiere).
Unbeantwortbare Fragen: "Wie viele Eier legt ein Tiger?" (Richtig, aber die Frage ist Unsinn).

Sie wollten sehen: Erkennt die KI, dass sie nicht suchen muss? Oder sucht sie trotzdem blindlings weiter?

Die wichtigsten Entdeckungen (in einfachen Worten)

1. Suchen hilft bei Fakten, schadet aber bei "Ich weiß es nicht"
Wenn die Antwort existiert (z. B. "Wer hat den Weltrekord im 100m-Lauf?"), dann ist Suchen super. Die KI wird besser.
Aber wenn die Frage unsinnig ist (z. B. "Wie viele Flügel hat ein Einhorn?"), dann macht das Suchen die KI schlechter. Statt zu sagen "Das gibt es nicht", sucht sie so lange, bis sie etwas findet, das wie eine Antwort aussieht, und erfindet dann etwas.

2. Je "dümmer" (komplexer) die KI, desto schlimmer das Problem
Die Forscher haben festgestellt, dass KIs, die besonders gut im "Nachdenken" sind (wie die neuen Reasoning-Modelle), noch mehr dazu neigen, übermäßig zu suchen. Sie denken so viel nach, dass sie denken, sie müssten noch mehr suchen, um sicher zu sein. Es ist, als würde jemand, der ein Rätsel löst, immer weiter im Kreis laufen, anstatt zu erkennen, dass das Rätsel gar nicht lösbar ist.

3. Der "Schneeball-Effekt" in Gesprächen
Wenn man mit der KI ein langes Gespräch führt, wird das Problem schlimmer. Wenn die KI in den ersten 5 Fragen immer Antworten gefunden hat, denkt sie: "Ah, ich bin gut im Suchen!" und sucht dann auch bei der 6. Frage (die eigentlich unbeantwortbar ist) weiter. Der Schneeball rollt und wird immer größer.

4. Negative Beweise sind Gold wert
Das Interessanteste: Wenn die KI bei ihrer Suche auf Texte stößt, die sagen "Das gibt es nicht" oder "Niemand weiß das", dann gibt sie auf und sagt "Ich weiß es nicht". Das Problem ist nur: Im Internet gibt es viel mehr Texte, die Antworten suggerieren, als Texte, die sagen "Das ist unmöglich". Die KI wird also von der Menge der Informationen überrollt.

Eine neue Messgröße: "Tokens pro Richtigkeit"

Die Forscher haben eine neue Art gemessen, wie effizient die KI ist. Sie nennen es TPC (Tokens Per Correctness).
Stell dir das wie den Kraftstoffverbrauch pro Kilometer bei einem Auto vor.

Ein gutes Auto (eine gute KI) verbraucht wenig Benzin (wenige Suchschritte), um ans Ziel zu kommen.
Eine KI mit "Over-Searching" fährt 100 Kilometer im Kreis, nur um festzustellen, dass sie am Ziel ist. Das kostet extrem viel Benzin (Rechenleistung), bringt aber keinen Vorteil.

Was kann man dagegen tun?

Die Forscher haben ein paar Tricks ausprobiert:

Bessere Anweisungen: Man kann der KI sagen: "Wenn du nicht sicher bist, sag einfach 'Ich weiß es nicht'." Das hilft ein bisschen.
Beispiele geben: Man zeigt der KI Beispiele, wie man "Nein" sagt. Das hilft auch, aber manchmal wird die KI dann zu vorsichtig und sagt auch bei richtigen Fragen "Ich weiß es nicht".
Die Datenbank füllen: Man könnte die Suchdatenbank mit mehr Texten füllen, die sagen "Das ist unmöglich". Das hilft, ist aber schwer umzusetzen.

Das Fazit

Die KI ist wie ein sehr eifriger Bibliothekar. Wenn du nach einem Buch fragst, das es gibt, findet er es super schnell. Aber wenn du nach einem Buch fragst, das es gar nicht gibt, sucht er stundenlang in den Regalen, liest tausende Seiten durch und gibt dir am Ende vielleicht ein Buch, das gar nicht das richtige ist, nur weil er so lange gesucht hat.

Die Botschaft der Studie ist: Man muss KIs beibringen, wann sie aufhören sollen zu suchen. Nicht jedes Problem braucht eine Google-Suche. Manchmal ist "Ich weiß es nicht" die beste und effizienteste Antwort.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Over-Searching in Search-Augmented Large Language Models" auf Deutsch:

Titel: Over-Searching in Search-Augmented Large Language Models

Autoren: Roy Xie, Deepak Gopinath, David Qiu et al. (Apple & Duke University)
Datum: März 2026 (vorgelegt auf arXiv)

1. Problemstellung: Das Phänomen des „Over-Searching"

Such-augmentierte Large Language Models (LLMs) integrieren externe Suchtools, um wissensintensive Aufgaben zu lösen. Obwohl dies die Genauigkeit bei beantwortbaren Fragen steigert, leiden diese Systeme unter einem spezifischen Fehlermodus: dem Over-Searching.

Definition: Over-Searching tritt auf, wenn ein Modell Suchanfragen unnötig auslöst, obwohl dies die Antwortqualität nicht verbessert. Dies geschieht beispielsweise, wenn das Modell die Antwort bereits kennt oder die Frage grundsätzlich unbeantwortbar ist (z. B. zukünftige Ereignisse, falsche Prämissen).
Folgen:
- Rechenineffizienz: Hohe Kosten durch unnötige Token-Generierung und API-Aufrufe.
- Halluzinationen: Durch das Einbeziehen irrelevanter oder irreführender Kontextdaten („Search-induced confusion") verschlechtert sich die Fähigkeit des Modells, sich zurückzuhalten (Abstention).
- Verlust der Abstention: Während Basis-Modelle oft korrekt erkennen, dass sie eine Frage nicht beantworten können, neigen such-augmentierte Modelle dazu, trotz fehlender Evidenz eine Antwort zu erzwingen.

2. Methodik und Experimentelles Setup

OverSearchQA Benchmark

Da es bisher keine geeigneten Benchmarks für die Evaluierung von „Abstention" (sich zurückhalten) in Such-Kontexten gab, stellten die Autoren OverSearchQA vor.

Umfang: 1.188 Fragen, ausgewogen zwischen beantwortbaren und unbeantwortbaren Queries.
Kategorien unbeantwortbarer Fragen:
1. Answer Unknown (AU): Zukünftige Ereignisse oder ungelöste Probleme.
2. False Premise (FP): Fragen mit falschen Annahmen (z. B. „Wie viele Eier legen Tiger?").
3. Underspecified Context (UC): Unklare oder mehrdeutige Fragen.
Design: Die unbeantwortbaren Fragen wurden semantisch so nah wie möglich an beantwortbare Fragen aus bestehenden Datensätzen (HotpotQA, Natural Questions) herangeführt, um Verzerrungen durch Schwierigkeitsgrade auszuschließen.

Evaluierungs-Metriken

Dual Accuracy: Separate Messung von:
- Answer Accuracy: Anteil korrekter Antworten bei beantwortbaren Fragen.
- Abstention Accuracy: Anteil korrekter Zurückhaltung bei unbeantwortbaren Fragen.
Tokens Per Correctness (TPC): Eine neue Metrik zur Quantifizierung des Kosten-Nutzen-Verhältnisses.
- Formel: $TPC = \frac{\sum \text{Kosten (Tokens + Suchaufrufe)}}{\sum \text{Korrekte Antworten}}$
- Ein niedrigerer TPC-Wert bedeutet eine effizientere Nutzung von Suchen.
- Die Kosten beinhalten generierte Tokens, Eingabe-Kontext (mit Faktor $\lambda=0.25$ ) und Suchaufrufe (mit Faktor $\mu=500$ ).

Modelle und Setup

Es wurden diverse Modelle getestet, darunter:

Basis-Modelle (z. B. GPT-4o-mini, Llama-3.3-70B).
Reasoning-Modelle (z. B. o4-mini, Qwen3-235B-Thinking).
Deep-Research-Systeme (z. B. o4-mini-deep-research).
Die Evaluation erfolgte mit und ohne Such-Augmentierung unter Verwendung verschiedener Retrieval-Quellen (Wikipedia, Web-Suche, noisy Corpus).

3. Wichtige Ergebnisse

A. Such-Augmentierung schadet der Abstention

Während Suchen die Antwortgenauigkeit bei beantwortbaren Fragen im Durchschnitt um 24,0 % steigerten, sank die Abstention-Accuracy bei unbeantwortbaren Fragen um 12,8 %.
Modelle neigen dazu, bei unbeantwortbaren Fragen (insbesondere bei „Underspecified Context") unnötig nach Beweisen zu suchen, anstatt „Ich weiß es nicht" zu sagen.

B. Komplexität und Reasoning verstärken Over-Searching

Reasoning-Modelle: Modelle mit ausgeprägten Reasoning-Fähigkeiten (wie o4-mini) zeigen ein stärkeres Over-Searching als Basis-Modelle.
Deep Research: Systeme mit tiefgehenden Suchkapazitäten erreichen zwar hohe Antwortgenauigkeit, aber der TPC-Wert explodiert (z. B. 38.9k Tokens pro korrekter Antwort beim Deep-Research-Modell im Vergleich zu 827 beim Basis-Modell).
Multi-Turn-Konversationen: In mehrstufigen Gesprächen „snowballt" das Suchverhalten. Eine Geschichte von beantwortbaren Fragen führt dazu, dass das Modell auch bei späteren unbeantwortbaren Fragen versucht, Antworten zu finden.

C. Der Einfluss von Retrieval-Qualität und Evidenz

Rauschen: Schlechte Retrieval-Qualität (z. B. veraltete Daten oder noisy Corpus) führt zu noch mehr Suchaufrufen und einem drastisch höheren TPC.
Negative Evidenz: Die Zusammensetzung der Suchergebnisse ist entscheidend. Wenn Suchergebnisse explizit negative Evidenz enthalten (z. B. „diese Information ist nicht verfügbar"), verbessert dies die Abstention-Accuracy signifikant (nahezu 100 %).
Problem: In realen Korpora ist negative Evidenz selten (nur 13–22 % der Ergebnisse bei unbeantwortbaren Fragen), was die Tendenz zum Over-Searching fördert.

4. Mitigationsstrategien

Die Autoren untersuchten zwei Ansätze zur Reduzierung von Over-Searching:

Query-Level (Prompting):
- Abstention-aware Prompts: Explizite Anweisungen, bei Unwissenheit zurückzuhalten.
- Few-Shot Learning: Beispiele für korrektes Zurückhalten im Prompt.
- Self-Evaluation: Das Modell bewertet vor der Antwort die Beantwortbarkeit.
- Ergebnis: Diese Methoden verbesserten die Abstention-Accuracy um durchschnittlich 11,5 Prozentpunkte, führten aber oft zu einem leichten Rückgang der Antwortgenauigkeit bei beantwortbaren Fragen und erhöhten die Token-Kosten (insbesondere bei Self-Evaluation).
Retrieval-Level (Corpus Augmentation):
- Hinzufügen synthetischer Dokumente mit negativer Evidenz in den Suchindex.
- Ergebnis: Nur moderate Verbesserungen (ca. 3,6 %), da synthetische Dokumente oft schlecht gerankt werden oder von positiven (irreführenden) Dokumenten überlagert werden.

Fazit der Mitigation: Keine der getesteten Strategien löst das fundamentale Problem der irrationalen Suchentscheidung vollständig; sie bieten nur teilweise Verbesserungen mit Trade-offs.

5. Bedeutung und Beitrag

Neue Metrik (TPC): Das Paper führt einen standardisierten Weg ein, um die Effizienz von Such-LLMs zu messen, der Kosten und Genauigkeit direkt gegenüberstellt.
Benchmark (OverSearchQA): Bereitstellung eines kritischen Datensatzes, der das Problem der unbeantwortbaren Fragen in Such-Kontexten adressiert, was bisher ein Forschungslücke war.
Systemische Erkenntnis: Die Arbeit zeigt, dass die Integration von Suchtools und Reasoning-Fähigkeiten die Fähigkeit von Modellen, ihre eigenen Wissensgrenzen zu erkennen, untergräbt. Dies ist ein zentrales Sicherheits- und Effizienzproblem für zukünftige KI-Systeme.
Zukünftige Richtungen: Die Autoren deuten an, dass reine Prompting-Strategien nicht ausreichen und zukünftige Lösungen wahrscheinlich gezieltes Training (Post-Training/Alignment) oder architektonische Änderungen im Retrieval-System erfordern werden.

Zusammenfassend warnt das Paper davor, dass die naive Integration von Suchtools in LLMs zu ineffizienten und fehleranfälligen Systemen führen kann, wenn nicht explizit Mechanismen zur Erkennung von Unbeantwortbarkeit implementiert werden.