Automatic In-Domain Exemplar Construction and LLM-Based Refinement of Multi-LLM Expansions for Query Expansion

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du suchst in einer riesigen Bibliothek nach einem bestimmten Buch, aber du kennst den genauen Titel nicht. Du sagst dem Bibliothekar: „Ich suche etwas über Kühe." Der Bibliothekar sucht aber nur nach dem Wort „Kuh" und findet vielleicht nur ein paar alte Zeitungsartikel, weil er nicht weiß, dass du eigentlich ein modernes Buch über Milchwirtschaft oder Klimawandel suchst.

Das ist das Problem, mit dem Suchmaschinen kämpfen: Der Mensch denkt in Konzepten, die Maschine sucht nur nach exakten Wörtern.

Dieser Papier beschreibt eine clevere Lösung, die wie ein super-intelligenter Bibliothekar funktioniert, der dir hilft, deine Suchanfrage zu verbessern, bevor er überhaupt sucht. Hier ist die Geschichte, wie sie das machen, einfach erklärt:

1. Das Problem: Der Bibliothekar ist oft zu stur

Früher haben Suchmaschinen versucht, deine Suche zu erweitern, indem sie einfach Wörter aus den ersten paar Ergebnissen herauspickten. Das war wie ein Schüler, der nur das nachplappert, was er gerade gelesen hat. Das funktioniert manchmal, aber oft führt es in die falsche Richtung (man nennt das „Query Drift" – die Suche verirrt sich).

Heute haben wir KI-Modelle (LLMs), die wie Genies sind. Sie können deine einfache Frage „Kuh" in eine viel bessere Suche verwandeln wie „Nachhaltige Milchproduktion und Klimaeinfluss". Aber diese Genies brauchen Hilfe:

Sie brauchen Beispiele, um zu verstehen, was du willst (sonst raten sie wild).
Sie brauchen Beispiele aus der richtigen Welt (ein Beispiel aus einem Kochbuch hilft nicht, wenn du Medizin suchst).
Oft nutzen Forscher nur ein Genie. Aber was, wenn wir zwei verschiedene Genies zusammenarbeiten lassen?

2. Die Lösung: Ein dreistufiger Bauplan

Die Autoren haben ein System gebaut, das komplett automatisch funktioniert und keine menschliche Hilfe braucht. Stell es dir wie eine Küchen-Kette vor:

Schritt 1: Die Zutaten sammeln (Der „Pseudo-Relevanz"-Pool)

Statt dass jemand mühsam Beispiele von Hand aussucht, nutzt das System einen Trick:

Es wirft deine Suchanfrage in die Datenbank und holt sich die ersten 100 Treffer.
Ein kleinerer, smarter KI-Assistent (MonoT5) schaut sich diese Treffer an und sagt: „Hey, dieser Artikel hier passt am besten!"
Diese „besten" Artikel werden als Beispiel-Karteikarten gespeichert.

Die Analogie: Es ist, als würde ein Koch tausende Rezepte durchsuchen, die besten 100 auswählen und daraus ein Kochbuch für diese spezielle Küche erstellen. Das System lernt also aus der eigenen Bibliothek, was gut aussieht.

Schritt 2: Die Auswahl der besten Beispiele (Das „Clustering")

Jetzt hat das System tausende Beispiel-Karteikarten. Wenn du eine neue Frage hast, kann es nicht alle 1000 Karten vorlegen (das wäre zu viel). Es muss die besten 4 auswählen.

Statt zufällig zu wählen, nutzt das System eine Gruppierungs-Strategie. Es sortiert alle Karten nach Themen (wie „Kühe", „Landwirtschaft", „Wissenschaft").
Aus jeder Gruppe nimmt es dann die „perfekte Mitte" (das repräsentativste Beispiel).
Die Analogie: Stell dir vor, du willst eine Party planen. Du hast 1000 Musikstücke. Du sortierst sie in Gruppen (Rock, Pop, Jazz) und wählst aus jeder Gruppe den absoluten Hit aus, damit die Playlist vielfältig ist, aber nicht chaotisch.

Schritt 3: Das Teamwork der Genies (Multi-LLM & Refinement)

Jetzt kommt der coolste Teil. Anstatt nur ein KI-Modell zu fragen, machen sie es dreimal:

Genie A (z. B. Qwen) schreibt eine Erweiterung deiner Suche basierend auf den Beispiel-Karten.
Genie B (z. B. Llama) schreibt eine andere Erweiterung, basierend auf denselben Karten.
Der Chef-Koch (Refinement-LLM) nimmt beide Vorschläge, liest sie, und sagt: „Genie A hat das Wort 'Bio' gut eingefügt, Genie B hat 'Nachhaltigkeit' gut erklärt. Ich schreibe jetzt einen perfekten Satz, der beides kombiniert und den Unsinn weglässt."

Die Analogie: Zwei Architekten entwerfen jeweils einen Bauplan für ein Haus. Der eine ist gut bei Fundamenten, der andere bei Fenstern. Ein erfahrener Architekt (der Refiner) nimmt die besten Teile beider Pläne und baut daraus einen einzigen, perfekten Bauplan, ohne dass jemand extra bezahlen oder trainieren muss.

3. Warum ist das so toll?

Es lernt aus der eigenen Welt: Es nutzt keine fremden Beispiele, sondern baut seine eigene Wissensbasis aus den Daten, die es gerade durchsucht.
Es ist stabil: Weil es verschiedene Genies zusammenbringt, macht es weniger Fehler. Wenn eines etwas Falsches sagt, korrigiert der Chef-Koch es.
Es braucht keine menschliche Arbeit: Alles passiert automatisch. Kein Mensch muss händisch Beispiele aussortieren.

Das Ergebnis

Wenn sie das auf echten Suchaufgaben getestet haben (wie wissenschaftliche Fragen oder Produktsuche), war dieses System deutlich besser als alle alten Methoden. Es fand die richtigen Dokumente viel häufiger, weil die Suchanfrage am Ende so präzise war, als hätte ein Experte sie geschrieben.

Kurz gesagt: Das Papier zeigt uns, wie man KI-Modelle nicht als einsame Genies, sondern als ein gut organisiertes Team einsetzt, das sich automatisch aus der eigenen Datenbank die besten Lernbeispiele holt, um Suchmaschinen viel schlauer zu machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Query Expansion (QE) zielt darauf ab, die Vokabular-Mismatch-Problematik zwischen Benutzeranfragen und relevanten Dokumenten zu lösen. Während klassische Methoden wie Pseudo-Relevance Feedback (PRF, z. B. Rocchio, RM3) effektiv sind, leiden sie unter der Abhängigkeit von der Qualität des ersten Retrieval-Schritts und können kein semantisches Wissen jenseits des Korpus einbringen.

Der Einsatz von Large Language Models (LLMs) bietet eine vielversprechende Alternative durch semantisch reiche Reformulierungen, insbesondere im Rahmen von In-Context Learning (ICL). Allerdings bestehen folgende Herausforderungen bei bestehenden Ansätzen:

Manueller Aufwand: Viele Pipelines basieren auf handgefertigten Prompts oder manuell ausgewählten Beispielen (Exemplaren).
Domänenverschiebung: Oft werden Beispiele aus falschen Domänen verwendet, was zu instabilen Ergebnissen führt.
Skalierbarkeit und Sensitivität: Die Leistung von ICL ist stark von der Auswahl und Reihenfolge der Beispiele abhängig.
Einzelmodell-Limitierung: Fast alle bisherigen Studien nutzen nur ein einziges LLM, wodurch das komplementäre Wissen mehrerer Modelle ungenutzt bleibt.

2. Methodik

Das Paper stellt einen vollständig automatisierten, domänenadaptiven und label-freien Framework vor, der in drei Hauptstufen unterteilt ist (siehe Abbildung 1 im Paper):

Stufe 1: Automatischer Aufbau eines In-Domain-Beispiel-Pools

Um manuelle Annotation zu vermeiden, wird ein großer Pool an (Query, Expansion)-Paaren aus einem ungelabelten Zielkorpus generiert:

Seed-Queries: Die Trainings-Queries des jeweiligen Datensatzes werden genutzt.
Retrieval & Reranking: Für jede Query werden die Top-N Ergebnisse mit BM25 retrieved und mit einem MonoT5-Reranker neu sortiert.
Pseudo-Relevanz: Die Top-1-Passage wird als pseudo-relevante Expansion akzeptiert.
Ergebnis: Es entstehen große Pools (z. B. 100.000 für MS MARCO, 809 für SciFact), die als Quelle für Few-Shot-Beispiele dienen.

Stufe 2: Few-Shot Query Expansion mit Cluster-basierter Beispiel-Auswahl

Für jede Test-Query werden Demonstrations (Beispiele) aus dem Pool ausgewählt, um ein stabiles ICL-Prompt zu erstellen:

Embedding: Alle Kandidaten im Pool werden mit dem Contriever-Modell embeddet.
Clustering: Ein k-Means-Algorithmus gruppiert die Embeddings in $k$ semantische Cluster.
Auswahl: Aus jedem Cluster wird der Medoid (das Beispiel, das dem Cluster-Zentrum am nächsten liegt) als repräsentatives Beispiel ausgewählt.
Vorteil: Dies gewährleistet eine diverse und thematisch abgedeckte Auswahl an Beispielen ohne menschliches Eingreifen.

Stufe 3: Zwei-LLM Ensemble mit LLM-Verfeinerung (Refinement)

Um die Komplementarität verschiedener Modelle zu nutzen, wird ein Ensemble-Ansatz gewählt:

Unabhängige Generierung: Zwei heterogene LLMs (hier Qwen-2.5-7B-Instruct und Llama-3.1-8B-Instruct) generieren unabhängig voneinander Erweiterungen basierend auf denselben Cluster-Beispielen.
Refinement-LLM: Ein drittes LLM (Refinement-Modul) nimmt die beiden unabhängigen Erweiterungen sowie die Original-Query als Input.
Synthese: Das Refinement-Modell fasst die beiden Vorschläge zu einer einzigen, kohärenten und rauscharmen Erweiterung zusammen. Es behält nützliche Entitäten und Relationen bei, eliminiert Redundanzen und fügt Domänenwissen zusammen.
Finaler Query: Die finale Query besteht aus fünf Kopien der Original-Query plus der verfeinerten Erweiterung.

3. Wichtige Beiträge

Vollautomatisierte Pipeline: Ein label-freier Ansatz zur Konstruktion großer In-Domain-Beispiel-Pools mittels BM25–MonoT5, der manuelle Prompt-Designs überflüssig macht.
Einfache Clustering-Strategie: Eine reproduzierbare, trainingsfreie Methode zur Auswahl diverser und stabiler ICL-Demonstrationen, die die Leistung gegenüber festen oder zufälligen Beispielen signifikant steigert.
Training-freies Multi-LLM Ensemble: Ein neuartiger Ansatz, bei dem zwei heterogene LLMs expandieren und ein drittes Modell die Ergebnisse auf Query-Ebene fusioniert. Dies nutzt komplementäres lexikalisches und semantisches Wissen ohne zusätzliches Training oder mehrstufiges Retrieval.

4. Ergebnisse

Die Methode wurde auf drei Benchmarks evaluiert: TREC DL20 (Web-Suche), DBPedia-Entity (Entitätssuche) und SciFact (wissenschaftliche Faktenprüfung).

Vergleich mit Baselines: Der Ansatz übertrifft konsistent klassische Baselines (BM25, BM25+Rocchio), Zero-Shot-LLM-Ansätze und feste Few-Shot-Baselines (FewShot4-Fixed).
Einfluss der Cluster-Beispiele: Die Cluster-basierte Auswahl (Cluster-ICL QE) liefert robustere Verbesserungen als feste oder Zero-Shot-Prompts, was die Wichtigkeit domänenangepasster Beispiele unterstreicht.
Leistung des Ensembles:
- Das reine Aneinanderreihen (Concat) der Ausgaben zweier LLMs bringt bereits leichte Verbesserungen.
- Das Refinement-Ensemble erzielt die besten Ergebnisse auf allen Datensätzen. Auf TREC DL20 wurde beispielsweise eine absolute Steigerung von +4,15 Punkten im NDCG@10 gegenüber dem einzelnen Cluster-ICL-Ansatz erreicht.
- Die Verbesserungen sind statistisch signifikant (gepaarter t-Test, $p \le 0.05$ ).
Dense Retrieval: Die Methode funktioniert auch als Plug-in für Dense Retriever (SBERT) und verbessert deren Leistung signifikant, was zeigt, dass der Ansatz nicht an lexikalisches Retrieval gebunden ist.
Länge der Expansion: Längere Generierungen (128 Tokens) verschlechtern die Leistung im Vergleich zur verfeinerten, kürzeren Multi-LLM-Methode, was darauf hindeutet, dass Qualität und Kohärenz wichtiger sind als reine Länge.

5. Bedeutung und Fazit

Das Paper demonstriert, dass Query Expansion mit LLMs skalierbar und robust gestaltet werden kann, wenn man auf manuelle Annotation verzichtet und stattdessen auf automatisierte, domänenspezifische Beispielgenerierung setzt.

Die zentrale Erkenntnis ist, dass domänenangepasste Beispiele in Kombination mit einer Multi-LLM-Verfeinerung (Refinement) die Leistungsgrenzen einzelner Modelle überwinden. Der vorgestellte Ansatz bietet eine praktische, reproduzierbare und label-freie Lösung für reale Suchanwendungen, die sowohl bei lexikalischen als auch bei dichten Retrieval-Systemen signifikante Gewinne erzielt. Der Code und die Beispiel-Pools wurden für die Forschungsgemeinschaft freigegeben.