HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Detektiv, der eine komplexe Frage beantworten muss. Deine Beweise liegen in zwei völlig verschiedenen Welten:

Die Tabellen-Welt: Hier gibt es strenge Listen, Zahlen und Fakten (wie eine Sporttabelle mit Spielern, Teams und Daten).
Die Text-Welt: Hier gibt es lange, erzählerische Artikel (wie eine Biografie über einen Spieler oder eine Geschichte über ein Team).

Das Problem: Wenn du eine Frage stellst wie "Welche Schulfarben hat die Universität, die der Spieler aus dem 27. Pick des Drafts besucht hat?", müssen diese beiden Welten zusammenarbeiten. Bisherige Methoden waren dabei oft wie blinde Detektive.

Hier ist die Geschichte von HELIOS, dem neuen Super-Detektiv, der das Problem löst.

Das alte Problem: Die zwei falschen Wege

Früher gab es zwei Hauptmethoden, um Beweise zu sammeln, und beide hatten ihre Macken:

Der "Frühe-Verstärker" (Early Fusion): Dieser Detektiv klebt alles, was er denkt, könnte relevant sein, sofort zusammen. Er nimmt eine Tabellenzeile und klebt sie mit allen umliegenden Texten zusammen, wie einen riesigen Klecks.
- Das Problem: Er bringt viel "Müll" mit. Er klebt auch Texte an, die nichts mit deiner Frage zu tun haben. Das verwirrt ihn, wie wenn man einem Detektiv 100 Fotos zeigt, aber nur eines das Gesuchte ist.
Der "Späte-Verstärker" (Late Fusion): Dieser Detektiv sucht erst nach einzelnen Wörtern. Er sucht nach "Notre Dame" in der Tabelle und dann nach "Notre Dame" im Text.
- Das Problem: Er verpasst oft den Kontext. Er findet vielleicht das Wort, aber nicht die Beziehung. Er sieht den Spieler, aber nicht, dass er zur Universität gehört, die die Frage eigentlich meint.

Beide Methoden scheiterten auch bei schwierigen Rätseln, bei denen man logisch denken muss (z. B. "Wer war der jüngste Spieler?" oder "Addiere alle Punkte dieser Spalte").

Die HELIOS-Lösung: Der Meister-Detektiv

HELIOS kombiniert die Stärken aller Welten in einem cleveren, dreistufigen Prozess. Stell dir das wie eine perfekte Ermittlungsmannschaft vor:

Schritt 1: Das feine Sieb (Edge-based Retrieval)

Statt ganze Kleckse (Tabellen + Text) zu nehmen, schaut HELIOS auf die Verbindungen (die "Kanten") zwischen den einzelnen Zeilen und Texten.

Die Analogie: Stell dir vor, du hast ein riesiges Netz aus Fäden. Frühere Methoden haben ganze Bündel Fäden geschnitten. HELIOS schneidet nur die einzelnen Fäden heraus, die wirklich relevant sind. So vermeidet er den "Müll" (irrelevante Texte) und behält die feinen Details.

Schritt 2: Das Wachstum des Baumes (Query-relevant Node Expansion)

Jetzt hat HELIOS ein paar gute Fäden. Aber reicht das? Vielleicht fehlt noch ein wichtiger Ast.

Die Analogie: HELIOS nimmt die besten Fäden, die er gefunden hat, und fragt: "Wenn ich hier weitergehe, was finde ich noch?" Er wächst seinen Beweis-Baum dynamisch. Er sucht gezielt nach den nächsten Beweisen, die genau zu deiner Frage passen, und fügt sie hinzu. So verpasst er keine wichtigen Details, die im ersten Schritt übersehen wurden.

Schritt 3: Der große Denker (Star-based LLM Refinement)

Jetzt hat HELIOS einen Haufen Beweise. Aber manchmal muss man logisch schliessen, nicht nur suchen.

Die Analogie: Stell dir vor, HELIOS legt seine Beweise vor einen Super-Intelligenz-Rat (ein großes KI-Modell, das wir LLM nennen). Aber er gibt dem Rat nicht den ganzen Haufen Papier auf einmal (das würde verwirren). Stattdessen gibt er ihm kleine, übersichtliche "Stern-Gruppen" (eine Tabellenzeile + ihre direkten Texte).
Der Super-Rat denkt jetzt nach: "Ah, die Tabelle zeigt den Monat November 2009. Das ist der neueste Eintrag! Also ist dieser Spieler der gesuchte." Oder: "Die Tabelle sagt 'Gold und Blau', aber der Text bestätigt es."
Der Rat filtert den Müll heraus und löst die logischen Rätsel, die reine Suchmaschinen nicht können.

Das Ergebnis: Warum HELOS gewinnt

Durch diese Kombination aus feinem Suchen, intelligentem Wachstum und logischem Denken ist HELIOS unschlagbar.

Er ist präziser: Er findet die richtigen Beweise viel öfter als die alten Methoden (bis zu 42% besser!).
Er ist schlauer: Er kann komplexe Fragen beantworten, bei denen man addieren oder vergleichen muss.
Er ist effizient: Er verschwendet keine Zeit mit irrelevanten Informationen.

Zusammenfassend:
Während alte Methoden entweder zu grob (alles zusammenwerfen) oder zu blind (nur nach Wörtern suchen) waren, ist HELIOS wie ein Meister-Detektiv mit einem perfekten Assistenten. Er sucht gezielt nach den richtigen Fäden, baut sein Beweismaterial intelligent aus und lässt am Ende einen klugen Kopf die logischen Schlüsse ziehen. So wird aus einem chaotischen Haufen von Tabellen und Texten eine klare, korrekte Antwort.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Ziel von Table-Text-Retrieval ist es, sowohl relevante Tabellen als auch Textpassagen aus einem offenen Wissenskorpus zu finden, um Open-Domain-Frage-Antwort-Systeme (ODQA) zu unterstützen. Die Herausforderung besteht darin, strukturierte Daten (Tabellen) mit unstrukturierten Daten (Textpassagen) zu verbinden.

Bestehende Methoden leiden unter drei Hauptproblemen:

Unzureichende Granularität der Sucheinheiten:
- Early Fusion (z. B. Fusion-Retriever) verknüpft Tabellenzeilen vorab mit Passagen über Entity Linking und bildet „Sterne" (ein Tabellenknoten mit vielen verbundenen Passagen). Dies führt oft dazu, dass irrelevante Kontexte in die Sucheinheit aufgenommen werden, was die Ähnlichkeitsberechnung verzerrt.
- Late Fusion (z. B. COS) sucht nach einzelnen Knoten (Zeilen oder Passagen) dynamisch. Dies birgt das Risiko, wichtige Kontexte zu übersehen, wenn die Suche nicht den richtigen Pfad findet.
Fehlende query-abhängige Beziehungen: Vordefinierte Verknüpfungen (Early Fusion) erfassen oft nicht die spezifischen Beziehungen, die für eine bestimmte Frage notwendig sind (z. B. wenn eine Frage nach „Schulfarben" fragt, muss die Verbindung zu einer Passage über das Schulmaskottchen hergestellt werden, nicht nur zum Universitätsnamen).
Mangel an fortgeschrittenem Schlussfolgern: Komplexe Fragen erfordern logische Inferenzen wie Spaltenaggregation (z. B. „Wer ist der jüngste Spieler?" basierend auf einem Datum) oder Multi-Hop-Reasoning (Verknüpfung mehrerer Fakten). Reine semantische Ähnlichkeitsmodelle scheitern hier oft.

2. Methodik: HELIOS

HELIOS ist ein graphbasiertes Retrieval-Framework, das die Stärken von Early Fusion, Late Fusion und Large Language Models (LLMs) kombiniert. Es basiert auf einem bipartiten Graphen, wobei Knoten entweder Tabellensegmente oder Passagen sind und Kanten die Beziehungen zwischen ihnen darstellen. Der Prozess läuft in drei Stufen ab:

Stufe 1: Edge-basierte bipartite Subgraph-Retrieval (Verbesserter Early Fusion)

Ansatz: Statt ganzer „Sterne" (Tabellenzeile + alle Passagen) werden Kanten (Edges) als Sucheinheit verwendet. Eine Kante verbindet ein Tabellensegment direkt mit einer Passage.
Technik:
- Offline wird ein Graph durch Entity Linking erstellt.
- Kanten werden linearisiert und mit einem Multi-Vector-Encoder (ColBERTv2) eingebettet, um feingranulare Informationen zu erhalten.
- Bei einer Abfrage werden die Top- $k$ relevantesten Kanten basierend auf der semantischen Ähnlichkeit zwischen Query und Kanten-Embeddings ausgewählt.
- Diese Kanten werden zu einem Kandidaten-Subgraphen ( $G_c$ ) zusammengeführt.
Vorteil: Vermeidet das Rauschen großer, vordefinierter Blöcke, behält aber den Kontext der Verknüpfung bei.

Stufe 2: Query-relevante Knotenerweiterung (Verbesserter Late Fusion)

Ansatz: Um sicherzustellen, dass keine wichtigen Knoten übersehen werden, wird der Subgraph dynamisch erweitert.
Technik:
- Seed-Node-Auswahl: Aus dem Kandidaten-Subgraphen werden die $b$ (Beam-Width) Knoten ausgewählt, die am stärksten mit der Query übereinstimmen (mittels eines Rerankers).
- Erweiterung: Für jeden Seed-Knoten werden im ursprünglichen Graphen neue benachbarte Knoten gesucht, die durch eine erweiterte Query (Query + Inhalt des Seed-Knotens) gefunden werden.
- Dies ermöglicht das Auffinden von Beziehungen, die im ursprünglichen Early-Fusion-Graphen nicht direkt sichtbar waren oder die query-spezifisch sind.
Ergebnis: Ein erweiterter Graph ( $G_l$ ), der relevante Pfade enthält.

Stufe 3: Sternenbasierte LLM-Verfeinerung (Logische Inferenz)

Ansatz: Nutzung von LLMs, um logische Schlussfolgerungen durchzuführen, die über semantische Ähnlichkeit hinausgehen.
Technik:
- Der Graph wird in Stern-Graphen (ein Tabellensegment mit seinen verbundenen Passagen) zerlegt. Dies ist effektiver als das Eingeben des gesamten Graphen in den Prompt.
- Spaltenaggregation: Das LLM prüft, ob eine Aggregation nötig ist (z. B. „finden Sie das neueste Datum"), rekonstruiert die Tabelle und identifiziert die korrekte Zeile.
- Passage-Verifikation: Das LLM überprüft, ob die in den Kanten enthaltenen Passagen tatsächlich für die Beantwortung der Frage relevant sind, und entfernt irrelevante (Hard Negatives).
Ergebnis: Ein verfeinerter Graph ( $G_q$ ), der nur die höchstrelevanten Informationen enthält.

3. Wichtige Beiträge

Hybride Granularität: HELIOS nutzt unterschiedliche Granularitäten für verschiedene Phasen: Kanten für die initiale Suche (Balance zwischen Kontext und Rauschen), einzelne Knoten für die Erweiterung und Stern-Graphen für die logische Verfeinerung.
Dynamische Graph-Erweiterung: Durch die Kombination von Offline-Verknüpfungen und Online-Erweiterung (Query-relevant Node Expansion) werden sowohl vordefinierte als auch query-spezifische Beziehungen abgedeckt.
LLM-gestützte Logik: Die Integration von LLMs nicht nur als Reader, sondern als aktiver Teil des Retrieval-Prozesses (Aggregation und Verifikation) löst Probleme, die reine Embedding-Modelle nicht bewältigen können.
Effizienz: Trotz der komplexen Pipeline wird durch Beam Search und gezielte Verfeinerung eine hohe Effizienz erreicht.

4. Ergebnisse

Die Evaluation wurde auf den Datensätzen OTT-QA (Open-Domain Table-Text QA) und MultimodalQA durchgeführt.

Hauptergebnisse auf OTT-QA (Dev-Set):
- HELIOS übertrifft den State-of-the-Art (SOTA) Modell COS signifikant.
- Recall@2 (AR@2): Steigerung um 42,6 % (von 44,4 % auf 63,3 %).
- nDCG@50: Steigerung um 39,9 % (von 33,6 % auf 47,0 %).
- End-to-End QA (EM/F1): Verbesserungen von ca. 4 % auf den Testdaten.
Vergleich mit anderen Methoden:
- HELIOS schneidet auch gegen Graph-basierte Methoden wie HOLMES deutlich besser ab (88,4 % höhere EM), da HOLMES keine query-spezifische Verfeinerung und keine strukturierte Tabellenaggregation durchführt.
- Ein einfaches Stapeln von SOTA-Modulen (Early + Late + LLM) ohne die HELIOS-Architektur führt zu deutlich schlechteren Ergebnissen, was die Notwendigkeit der spezifischen Granularitätssteuerung unterstreicht.
Robustheit: Die Verbesserungen bleiben auch bei Verwendung verschiedener Reader-Modelle (Llama-3.1-70B, GPT-4o) bestehen.

5. Bedeutung und Fazit

HELIOS adressiert die fundamentalen Grenzen bestehender Table-Text-Retrieval-Systeme, indem es die statische Natur des Early Fusion mit der Flexibilität des Late Fusion vereint und durch logische Inferenz von LLMs ergänzt.

Wissenschaftlicher Impact: Das Paper zeigt, dass die reine semantische Ähnlichkeit für komplexe QA-Aufgaben nicht ausreicht und dass eine Kombination aus feinabgestimmtem Retrieval (Kanten/Graphen) und logischer Verfeinerung durch LLMs notwendig ist.
Praktische Relevanz: Die Methode ermöglicht präzisere Antworten auf komplexe Fragen, die Daten aus Tabellen und Text kombinieren, was für Anwendungen im Bereich Wissensmanagement und intelligente Suchmaschinen entscheidend ist.
Zukunftsausblick: Die Autoren planen, das Framework auf multimodale Daten (z. B. Bilder) und komplexere Graph-Strukturen zu erweitern.

Zusammenfassend stellt HELIOS einen neuen Standard für das Retrieval in hybriden Umgebungen dar, der durch eine sorgfältige Abstimmung von Granularität und logischer Inferenz signifikante Fortschritte erzielt.