DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber etwas vergesslichen Assistenten. Er kennt die ganze Welt auswendig, aber sein Gedächtnis ist statisch: Es wurde vor einem Jahr „eingefroren". Wenn Sie ihn heute nach dem Wetter oder einem neuen Film fragen, weiß er es nicht. Oder er erfindet sich Dinge aus, nur um nicht zu schweigen (das nennt man „Halluzinationen").

Um dieses Problem zu lösen, haben Forscher das Konzept RAG (Retrieval-Augmented Generation) entwickelt. Das ist wie ein Assistent, der vor jeder Antwort erst in einer riesigen Bibliothek nachschlägt.

Aber hier liegt das Problem: Die Bibliothek ist oft ein riesiger, unordentlicher Haufen aus verschiedenen Quellen. Ein Teil sind alte Bücher, ein Teil sind private Notizbücher, ein Teil sind aktuelle Datenbanken und ein Teil sind Webseiten. Wenn Sie dem Assistenten sagen: „Such mir alles über Erik Hort und seinen Geburtsort Montebello und das Land, in dem das liegt, heraus", dann stöbert er oft im falschen Regal, vermischt private mit öffentlichen Daten oder findet einfach gar nichts, weil die Frage zu komplex für eine einfache Suche ist.

Hier kommt DeepSieve ins Spiel. Der Name bedeutet so viel wie „Tiefes Sieb".

Die Metapher: Der geschickte Küchenchef

Stellen Sie sich DeepSieve nicht als einen einzelnen Sucher vor, sondern als einen geschickten Küchenchef, der ein kompliziertes Gericht für Sie kocht.

Das Problem (Der chaotische Einkauf):
Der Kunde (Sie) bestellt ein komplexes Gericht: „Ich will ein Gericht, das aus Zutaten besteht, die in drei verschiedenen, voneinander getrennten Lagern liegen."
- Lager A: Ein privater Kühlschrank (nur für Mitarbeiter).
- Lager B: Eine öffentliche Markthalle (Wikipedia, Google).
- Lager C: Ein Kühlcontainer mit speziellen Gewürzen (SQL-Datenbanken).
Ein normaler Assistent würde versuchen, alles in einen großen Topf zu werfen und zu rühren. Das Ergebnis ist oft ein ungenießbarer Brei, weil private Daten mit öffentlichen vermischt werden oder wichtige Zutaten übersehen werden.
Die Lösung von DeepSieve (Der Sieb-Prozess):
DeepSieve geht anders vor. Es nutzt einen LLM als „Wissens-Router" (eine Art super-intelligenter Küchenchef).
- Schritt 1: Das Zerlegen (Decomposition)
  Der Chef nimmt Ihre komplexe Frage und zerlegt sie in kleine, handliche Schritte.
  - Frage: „Woher kommt Erik Hort und in welchem Land liegt das?"
  - Zerlegt: „1. Wer ist Erik Hort? 2. Wo wurde er geboren? 3. In welchem Land liegt dieser Ort?"
    Das ist wie das Vorbereiten der Zutaten: Man schneidet das Gemüse erst in kleine Stücke, bevor man kocht.
- Schritt 2: Das richtige Lager wählen (Routing)
  Jetzt kommt das Geniale: Der Chef weiß genau, wo welche Zutat liegt.
  - Für die Frage „Wer ist Erik Hort?" schickt er den Bot nicht in die Markthalle, sondern direkt in den privaten Kühlschrank (Personaldatenbank), weil er weiß, dass diese Information dort steht.
  - Für die Frage „In welchem Land liegt Montebello?" schickt er den Bot in die Markthalle (Wikipedia), weil das Allgemeinwissen ist.
    Er verhindert also, dass der Bot im falschen Lager sucht. Er „siebt" die Informationen durch und wählt nur die richtige Quelle aus.
- Schritt 3: Der Check und die Korrektur (Reflexion)
  Was passiert, wenn der Bot im falschen Lager steht und nichts findet?
  Ein normaler Assistent würde raten oder aufgeben. DeepSieve sagt: „Moment, das hat nicht geklappt. Ich habe einen Fehler gemacht."
  Es schickt den Bot zurück, ändert die Suchanfrage und probiert eine andere Quelle. Das ist wie ein Koch, der schmeckt, feststellt: „Oh, das ist zu salzig," und dann sofort nachbessert, anstatt das ganze Gericht zu verderben.
- Schritt 4: Das Zusammenfügen (Fusion)
  Sobald alle kleinen Teile (die Antworten auf die Teilaufgaben) gefunden und geprüft sind, fügt der Chef sie zu einer perfekten, kohärenten Antwort zusammen.

Warum ist das so wichtig?

Kein Chaos: Es vermischt nicht private Firmendaten mit öffentlichen Wikipedia-Artikeln. Das ist sicher und effizient.
Tiefgründig: Es kann komplexe Fragen beantworten, die mehrere Schritte und verschiedene Wissensquellen erfordern (Multi-Hop-Reasoning).
Sparsam: Es braucht weniger „Gedanken" (Token), um die Antwort zu finden, weil es nicht blind durch alles wühlt, sondern gezielt sucht.

Zusammenfassung in einem Satz

DeepSieve ist wie ein intelligenter Detektiv, der eine komplexe Ermittlung nicht als einen einzigen großen Haufen Informationen betrachtet, sondern die Frage in kleine Puzzleteile zerlegt, jedes Teil genau dort sucht, wo es hingehört (ob im privaten Archiv oder im öffentlichen Internet), und bei Fehlern sofort umdenkt, bevor er das fertige Bild zusammenfügt.

Das Ergebnis: Schnellere, genauere und sicherere Antworten, selbst wenn die Informationen aus völlig unterschiedlichen Welten stammen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) sind zwar in vielen logischen Schlussfolgerungsaufgaben hervorragend, scheitern jedoch oft bei wissensintensiven Abfragen, da sie keinen dynamischen Zugriff auf aktuelle oder domänenspezifische Informationen haben. Die herkömmliche Lösung, Retrieval-Augmented Generation (RAG), leidet unter zwei wesentlichen Mängeln:

Fehlende Granularität auf der Abfrageseite: Komplexe, zusammengesetzte Queries (Compositional Queries) werden oft als atomare Einheiten behandelt, ohne in ihre semantischen Teilziele zu zerlegen. Dies verhindert eine tiefgehende mehrstufige Schlussfolgerung (Multi-Hop Reasoning).
Fehlende Granularität auf der Quellseite: Wissensquellen sind oft heterogen (z. B. strukturierte Datenbanken, unstrukturierte Texte, private APIs). Herkömmliche RAG-Systeme nutzen meist einen flachen, vereinheitlichten Index, was zu irrelevanten Retrievals, Formatkonflikten und Datenschutzproblemen führt, wenn Quellen nicht einfach zusammengeführt werden können.

Das Ergebnis ist ein System mit verrauschten Retrievals, oberflächlicher Argumentation und begrenzter Anpassungsfähigkeit.

2. Methodik: DeepSieve

DeepSieve ist ein neuartiges RAG-Framework, das den Begriff des „Information Sieving" (Informations-Siebung) einführt. Es nutzt ein LLM als „Wissens-Router" (Knowledge-Router), um Abfragen dynamisch zu zerlegen und an die passendsten Wissensquellen zu leiten. Der Prozess besteht aus vier modularen Phasen:

Zerlegung (Decomposition):
Eine komplexe Eingabeabfrage $Q$ wird von einem LLM-Planer in eine Menge strukturierter Teilfragen $\{q_i\}$ zerlegt. Diese bilden einen gerichteten azyklischen Graphen (DAG), der Abhängigkeiten zwischen den Teilfragen erfasst. Dies fungiert als semantischer Filter auf der Abfrageseite.
Routing (LLM-as-Router):
Für jede Teilfrage $q_i$ wählt ein Router-LLM basierend auf Metadaten-Profilen der Quellen (z. B. Domäne, Format, Privatsphäre) das optimale Paar aus Werkzeug und Korpus $(T_i, C_i)$ aus. Dies ermöglicht den Zugriff auf heterogene Quellen (z. B. SQL-Datenbanken für strukturierte Daten, RAG-Corpus für allgemeine Fakten), ohne diese physisch zu vereinheitlichen.
Beobachtung und Reflexion (Observation & Reflexion):
Nach dem Abrufen einer Antwort $a_i$ prüft das System deren Qualität. Ist die Antwort unzureichend (inkomplett, irrelevant), wird ein Reflexions-Schritt ausgelöst. Das System re-evaluiert die Teilfrage, wählt eine alternative Quelle oder ein anderes Werkzeug aus und versucht den Abruf erneut. Dies verhindert, dass Fehler in der Kette propagiert werden.
Fusion (Answer Fusion):
Sobald alle Teilfragen gelöst sind, aggregiert ein Fusions-Modul die Teilergebnisse zu einer kohärenten Endantwort $\hat{A}$ . Dabei werden die Pfadabhängigkeiten des DAGs berücksichtigt, um widersprüchliche Evidenzen aufzulösen.

Das System ist modular aufgebaut und unterstützt „Plug-and-Play"-Integrationen verschiedener Retrieval-Backends (z. B. Naive RAG, GraphRAG, SQL).

3. Wichtige Beiträge

Neues Paradigma: Einführung von „Information Sieving" als zentrales Konzept, das sowohl die Abfrage als auch die Wissensquelle granular filtert.
LLM als Knowledge-Router: Erstmals wird ein LLM genutzt, um dynamisch Teilfragen an heterogene, nicht vereinheitlichte Quellen zu leiten, anstatt einen einzigen Index zu durchsuchen.
Modularität und Erweiterbarkeit: Das Framework ist so gestaltet, dass Komponenten (Zerlegung, Routing, Reflexion) unabhängig voneinander ausgetauscht oder erweitert werden können, ohne den Gesamtfluss zu stören.
Effizienz: Trotz der komplexen Pipeline wird durch gezieltes Routing und Vermeidung unnötiger Abrufe Token-Verbrauch gesenkt.

4. Ergebnisse

Die Evaluation erfolgte auf drei Multi-Hop-QA-Benchmarks (MuSiQue, 2WikiMultiHopQA, HotpotQA) unter Verwendung von DeepSeek-V3 und GPT-4o.

Leistung: DeepSieve übertrifft sowohl reine RAG-Baselines (wie IRCoT, HippoRAG) als auch agentenbasierte Methoden (wie ReAct, Reflexion) signifikant.
- Auf MuSiQue erreichte DeepSieve (mit DeepSeek-V3) einen F1-Score von 46,8 (vs. 33,4 bei IRCoT+HippoRAG).
- Auf 2WikiMultiHopQA wurde ein F1-Score von 68,4 erzielt.
- Im Durchschnitt über alle Datensätze und Modelle lag DeepSieve bei einem F1-Score von 58,9 (DeepSeek-V3) bzw. 51,2 (GPT-4o).
Effizienz (Token-Nutzung): DeepSieve erreicht höhere Genauigkeit bei deutlich geringerem Token-Verbrauch. Auf HotpotQA benötigte es nur 3.926 Tokens pro Query im Vergleich zu 37.893 Tokens bei der Reflexion-Methode, bei gleichzeitig besserer EM (Exact Match)-Genauigkeit (49,3 vs. 46,7).
Ablationsstudie: Die Studie zeigt, dass die Module „Zerlegung" (Decomposition) und „Reflexion" für die Genauigkeit am kritischsten sind. Das „Routing"-Modul allein bringt wenig, ist aber in Kombination essenziell für die Bewältigung heterogener Quellen und erhöht die Robustheit.
Heterogene Szenarien: In Experimenten mit gemischten medizinischen und juristischen Daten (MedQA + CaseHOLD) zeigte DeepSieve eine um 50% höhere Genauigkeit als Naive RAG, da es „Kontaminierung" durch irrelevante Domänen verhindert.

5. Bedeutung und Ausblick

DeepSieve adressiert eine fundamentale Lücke in aktuellen RAG-Systemen: die Unfähigkeit, mit realen, fragmentierten und heterogenen Wissenslandschaften umzugehen. Durch die Entkopplung von Zerlegung, Routing und Reflexion bietet das Framework einen skalierbaren Ansatz für komplexe, mehrstufige Fragestellungen in Unternehmensumgebungen, wo Daten oft in verschiedenen Silos (SQL, APIs, Dokumente) vorliegen.

Die Arbeit zeigt, dass strukturierte, agentenartige Ansätze, die auf modularer Informationsfilterung basieren, nicht nur genauer, sondern auch kosteneffizienter sein können als monolithische RAG-Modelle oder reine Agenten-Methoden. Zukünftige Arbeiten könnten die Personalisierung des Routers und die Integration von feinkörnigen Tool-Parametern weiter untersuchen.

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

Die Metapher: Der geschickte Küchenchef

Warum ist das so wichtig?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: DeepSieve

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics