Aligning Large Language Models with Searcher Preferences

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du suchst in einem riesigen, chaotischen Bibliothekslabyrinth nach einer Antwort. Früher war ein Suchmaschinen-Ergebnis wie ein Katalog: Die Maschine gab dir eine Liste von 100 Büchern (Links) und sagte: „Such dir selbst etwas aus." Das war anstrengend.

Heute, mit großen KI-Modellen (LLMs), wollen wir etwas Besseres: Die KI soll nicht nur die Liste geben, sondern die Geschichte selbst erzählen. Sie soll die Bücher lesen, die wichtigsten Teile herauspicken und dir eine klare, verständliche Antwort auf deine Frage geben.

Das ist genau das, was die Forscher in diesem Papier mit SearchLLM erreicht haben. Hier ist die Erklärung, wie sie das gemacht haben, einfach und mit ein paar Bildern im Kopf:

1. Das Problem: Der verrückte Bibliothekar

Stell dir vor, du hast einen sehr klugen Bibliothekar (die KI), der dir gerne hilft. Aber er hat drei große Probleme:

Er liest alte Zeitungen: Manchmal findet er Informationen, die schon Jahre alt oder falsch sind (wie ein Rezept für ein Handy, das es gar nicht gibt).
Er halluziniert: Er erfindet Dinge, die klingen, als wären sie wahr, aber sind es nicht (z. B. „Der Präsident hat gestern einen Drachen gezähmt").
Er ist verwirrt: Wenn du eine vage Frage stellst, weiß er nicht, was du wirklich willst, und antwortet mit einem riesigen, unstrukturierten Textwust.

Die Forscher wollten diesen Bibliothekar so trainieren, dass er sicher, zuverlässig und genau das sagt, was du brauchst.

2. Die Lösung: Ein zweistöckiges Bewertungssystem

Statt dem Bibliothekar nur zu sagen „Gut gemacht" oder „Schlecht gemacht", haben die Forscher ein zweistöckiges Bewertungssystem erfunden. Stell dir das wie eine strenge Sicherheitskontrolle am Flughafen vor, gefolgt von einem Qualitäts-Check für dein Gepäck.

Der Boden (Das Fundament – „Bottom-line"):
Bevor der Bibliothekar überhaupt anfangen darf, eine gute Antwort zu schreiben, muss er hier bestehen. Das sind die harten Regeln:

Keine Lügen: Alles muss auf Fakten basieren, die er in den Büchern gefunden hat.
Sicherheit: Er darf keine gefährlichen Ratschläge geben (z. B. bei medizinischen Fragen).
Format: Die Antwort muss lesbar sein (keine Kauderwelsch).
Die Analogie: Wenn er hier versagt (z. B. eine Lüge erzählt), ist die Antwort sofort ungültig, egal wie schön sie geschrieben ist. Es ist wie ein Flugzeug, das einen Riss im Rumpf hat – es darf nicht starten, egal wie gut der Pilot ist.

Der Obergeschoss (Das Verhalten – „Behavioral Objectives"):
Sobald die Sicherheitsregeln erfüllt sind, geht es darum, wie gut die Antwort ist. Hier bewerten sie:

Robustheit: Versteht er auch, wenn du eine unklare Frage stellst? Ignoriert er alte, irrelevante Infos?
Reichhaltigkeit: Bietet er verschiedene Perspektiven an?
Kürze & Nutzen: Ist die Antwort kurz und knackig, oder redet er sich in die Länge?
Die Analogie: Hier geht es darum, ob der Bibliothekar ein guter Gastgeber ist. Ist die Antwort hilfreich? Ist sie gut strukturiert?

3. Der Trick: Das „Gated Aggregation"-Tor

Das Schwierigste an der KI-Training ist, dass die KI manchmal versucht, Tricks zu finden. Sie könnte denken: „Wenn ich einfach 100 Seiten Text schreibe, bekomme ich Punkte für 'Reichhaltigkeit', auch wenn der Inhalt Müll ist." Oder sie ignoriert die Sicherheitsregeln, um schneller eine Antwort zu liefern.

Die Forscher haben einen cleveren Mechanismus erfunden, das „Gated Aggregation" (Tor-Verfahren):

Stell dir vor, das Fundament (Sicherheit) ist ein elektrisches Tor.
Das Obergeschoss (Qualität) ist der Lohn, den der Bibliothekar bekommt.
Die Regel: Der Bibliothekar bekommt den vollen Lohn nur, wenn das Tor offen ist (d.h. alle Sicherheitsregeln sind erfüllt). Wenn das Tor zu ist (z. B. wegen einer Lüge), ist der Lohn null, egal wie schön der Text war.
Das verhindert, dass die KI die Sicherheitsregeln umgeht, um einfach nur „mehr Punkte" zu sammeln.

4. Der menschliche Check: Die „Blinden" und die „Geholfenen"

Um sicherzustellen, dass die Bewertung fair ist, haben die Forscher Menschen eingebunden. Aber nicht einfach so:

Die „Blinden": Diese Menschen bewerten die Antwort, ohne zu wissen, wie die KI darauf gekommen ist. Sie fühlen sich wie ein normaler Nutzer.
Die „Geholfenen": Diese Menschen sehen auch die Beweise und die Gedankengänge der KI. Sie prüfen, ob die KI wirklich logisch gedacht hat oder ob sie nur Glück hatte.
Wenn diese beiden Gruppen unterschiedlich bewerten, wissen die Forscher: „Aha, hier gibt es ein Problem!" und passen die KI an.

5. Das Ergebnis: Ein besserer Such-Assistent

Am Ende haben sie diese KI (SearchLLM) in der App RedNote (eine große chinesische Social-Media-App, ähnlich wie TikTok oder Instagram) getestet.

Die Ergebnisse waren beeindruckend:

Menschen lesen mehr: Die „Valid Consumption Rate" (wie oft Nutzer die Antwort wirklich lesen) stieg um über 1 %. Das klingt wenig, ist bei Millionen von Nutzern aber riesig.
Weniger Suchen: Die Leute mussten seltener nachfragen („Re-search Rate" sank um fast 3 %), weil die erste Antwort schon perfekt war.
Sicherheit: Es gab keine gefährlichen Fehler oder Lügen.

Zusammenfassung

Die Forscher haben einen KI-Such-Assistenten gebaut, der nicht nur „klug" ist, sondern auch diszipliniert. Sie haben ihm beigebracht, dass Sicherheit und Fakten zuerst kommen (das Fundament) und erst danach die Kunst, eine schöne, kurze und hilfreiche Antwort zu schreiben (das Obergeschoss). Durch dieses System wird die KI zu einem verlässlichen Partner, dem man vertrauen kann, statt zu einem verwirrten Bibliothekar, der nur Bücher auf einen Stapel wirft.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Aligning Large Language Models with Searcher Preferences" auf Deutsch:

Titel: Ausrichtung von Large Language Models (LLMs) auf Sucher-Präferenzen

Autoren: Wei Wu, Peilun Zhou, Liyi Chen et al. (USTC, Xiaohongshu Inc., HKUST)
Veröffentlicht: KDD '26 (August 2026)

1. Problemstellung

Die Suchmaschinenlandschaft vollzieht einen Paradigmenwechsel von einer artikelzentrierten Rangliste hin zu einer antwortzentrierten Synthese (Generative Search). Während industrielle Fortschritte bereits generative Techniken für geschlossene Suchräume (z. B. E-Commerce-Produkt-IDs) nutzen, bleibt die Anwendung auf offenen, generativen Suchsystemen mit heterogenen Inhalten (Videos, Posts, Web) begrenzt.

Dieses Szenario stellt drei zentrale Herausforderungen dar, die herkömmliche LLMs oft nicht bewältigen:

Robustheit gegenüber Rauschen: LLMs müssen mit mehrdeutigen Suchanfragen und unzuverlässigen, veralteten oder widersprüchlichen Suchergebnissen (Retrieval-Evidence) umgehen können.
Garantien für Sicherheit und Zuverlässigkeit: Es müssen strikte „Bottom-Line"-Anforderungen erfüllt werden, darunter faktenbasierte Fundierung (keine Halluzinationen), Sicherheitskonformität und logische Konsistenz.
Ausrichtung auf Nutzerbedürfnisse: Antworten müssen für den Verbrauch optimiert sein (z. B. „Antwort zuerst", Redundanzvermeidung), ohne die Sicherheitsgrenzen zu verletzen.

Das Paper identifiziert das Problem, dass bestehende Belohnungsmodelle (Reward Models) oft monolithisch sind und Schwierigkeiten haben, harte Sicherheitsgrenzen von weichen Qualitätszielen zu trennen, was zu einem „Wackeleffekt" (Seesaw Effect) führt, bei dem die Optimierung eines Ziels die andere verschlechtert.

2. Methodik: SearchLLM

Die Autoren stellen SearchLLM vor, das erste LLM, das speziell für offene, generative Suche entwickelt wurde. Der Ansatz basiert auf einem mehrstufigen Framework:

A. Systemarchitektur

Das System nutzt einen einzigen LLM für einen einheitlichen Workflow:

Intent Planning: Analyse der Suchanfrage und Session-Historie zur Strukturierung des Informationsbedarfs.
Evidence Selection: Filterung und Auswahl relevanter, nicht-redundanter Beweise aus einem heterogenen Pool (Web, interne Daten, Echtzeit-Tools).
Grounded Generation: Synthese einer natürlichen Sprachantwort basierend auf den ausgewählten Beweisen.

B. Mehrdimensionales Belohnungssystem (Multi-Dimensional Reward System)

Das Kernstück der Methodik ist ein hierarchisches Belohnungssystem, das zwei Schichten unterscheidet:

Schicht I: Bottom-Line Constraints (Harte Grenzen):
- Kodiert Anforderungen an Zuverlässigkeit und Sicherheit (R2).
- Kriterien: Faktenbasierte Fundierung (Halluzinationsprüfung), logische Konsistenz, Format-Compliance und Sicherheitsverweigerung bei unzureichenden Beweisen.
- Bewertung: Binär oder fast binär (Bestehen/Nicht-Bestehen).
Schicht II: Behaviorale Ziele (Weiche Optimierung):
- Kodiert Robustheit (R1) und Nutzerbedürfnisse (R3).
- Kriterien: Robustheit gegenüber unsicheren Beweisen, Reichhaltigkeit/Diversität der Antwort, Prägnanz und Benutzerfreundlichkeit (z. B. „Answer-First"-Prinzip).
- Bewertung: Kontinuierliche Scores.

C. Hybride Evaluations-Stack

Um die Belohnungssignale zu berechnen, wird eine Kombination aus deterministischen Regeln und LLM-basierten Richtern (Judges) verwendet:

Rule-based Checks: Für objektive Metriken (z. B. Format, Länge).
LLM Judges: Für semantische Dimensionen (z. B. Faktenprüfung, Relevanz).
Human-in-the-Loop Kalibrierung: Ein zweigleisiges Annotationsverfahren (Blind vs. Assisted) sorgt dafür, dass die LLM-Judges mit menschlichen Expertenmeinungen abgestimmt sind und Verzerrungen minimiert werden.

D. Gated Aggregation Strategy (Gestützte Aggregationsstrategie)

Um die verschiedenen Signale zu einem einzigen Trainingsziel zu vereinen, ohne das „Seesaw-Problem" zu verursachen, wird eine spezielle Aggregationsfunktion verwendet:

Die Bottom-Line-Scores werden über ein geometrisches Mittel (Soft-AND-Gate) aggregiert. Wenn eine harte Bedingung nicht erfüllt ist, wird der Gesamtwert drastisch gedämpft.
Die Behavioralen Scores werden als gewichtetes arithmetisches Mittel berechnet.
Formel: $R(x, y) = B_{\delta}(x, y) \cdot U(x, y)$ $R (x, y) = B_{δ} (x, y) \cdot U (x, y)$
- $B_{\delta}$ : Der „Gate"-Faktor (Sicherheit).
- $U$ : Der Nutzenfaktor (Qualität).
- Dies stellt sicher, dass Verbesserungen in der Antwortqualität nur dann belohnt werden, wenn die Sicherheitsgrenzen eingehalten werden.

E. Reinforcement Learning (RL)

Die Optimierung erfolgt mittels Group Relative Policy Optimization (GRPO). Im Gegensatz zu PPO wird hier kein separates Value-Netzwerk benötigt; stattdessen werden die Vorteile (Advantages) innerhalb einer Gruppe von generierten Antworten für dieselbe Anfrage normalisiert. Dies ist effizienter für den großskaligen Einsatz.

3. Hauptbeiträge

SearchLLM: Einführung des ersten spezialisierten LLM für offene generative Suche auf großen Content-Plattformen.
Zweischichtiges Reward-Design: Eine neue Architektur, die nicht verhandelbare Sicherheitsgarantien strikt von nutzerorientierten Qualitätszielen trennt.
Hybride Evaluations-Stack: Kombination von regelbasierten Checks und kalibrierten LLM-Judges mit einem menschlichen Feedback-Schleifen-Prozess für hohe Präzision.
Gated Aggregation Strategy: Ein Mechanismus, der das Training stabilisiert, indem er sicherstellt, dass Sicherheitsverletzungen nicht durch hohe Qualitäts-Scores kompensiert werden können.
Industrielle Validierung: Erfolgreicher Einsatz und A/B-Tests in der realen Umgebung von „RedNote" (Xiaohongshu).

4. Ergebnisse

Die Methode wurde durch Offline-Evaluationen und Online-A/B-Tests validiert:

Reward-System-Alignment: Das vorgeschlagene System erreichte in der Übereinstimmung mit menschlichen Experten (AUC/Accuracy) signifikant bessere Ergebnisse als State-of-the-Art-Basen (GenRM, Rubric-basierte Modelle), insbesondere bei Sicherheits- und Faktenprüfungen.
Offline-Generation: SearchLLM (mit Gated Aggregation) übertraf alle Baselines (SFT, DPO, RFT, GRPO-Linear) in allen Metriken. Während andere Methoden bei der Optimierung der „Reichhaltigkeit" oft die „Sicherheit" opferten, erreichte SearchLLM gleichzeitig hohe Werte in beiden Bereichen.
Online A/B-Tests (RedNote):
- Valid Consumption Rate (VCR): Steigerung um +1,03% (Nutzer lesen die Antworten länger).
- Re-search Rate (RR): Reduktion um -2,81% (Nutzer müssen weniger oft neu suchen).
- Skip Rate (SR) & Bad Case Rate (BCR): Deutliche Verbesserung, wobei die Sicherheitsstandards strikt eingehalten wurden.
- Die Ergebnisse waren statistisch signifikant und zeigten gute Generalisierungsfähigkeit auch auf Domänen, die nicht im Training enthalten waren.

5. Bedeutung und Ausblick

Dieses Paper liefert einen entscheidenden Baustein für die praktische Anwendung von LLMs in der Suchtechnologie. Es beweist, dass generative Suche in großen, offenen Umgebungen nicht nur möglich, sondern auch sicher und nutzerfreundlich skalierbar ist, wenn die Belohnungsfunktion die Hierarchie zwischen Sicherheit und Qualität korrekt abbildet.

Die vorgestellte Gated Aggregation Strategy bietet ein allgemeines Muster für das Training von RL-Modellen, bei denen harte Constraints (Safety, Compliance) nicht durch weiche Ziele (Helpfulness, Creativity) untergraben werden dürfen. Der erfolgreiche Einsatz in RedNote (mit über 150 Millionen täglichen Seitenaufrufen) unterstreicht die industrielle Reife des Ansatzes. Zukünftige Arbeiten zielen darauf ab, dies auf multimodale Kontexte und personalisierte Langzeitgedächtnis-Modelle zu erweitern.