One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ganz ohne komplizierte Fachbegriffe.

Das Problem: Der unnötige Umweg

Stell dir vor, du hast einen sehr klugen Assistenten (den LLM-Agenten), der für dich im Internet nach Informationen sucht.

In der heutigen Standard-Technologie läuft das so ab:

Der Assistent denkt nach und formuliert eine Suchanfrage in einem ganzen Satz (z. B. „Wo kann ich gute Pizza in Berlin finden?").
Dann muss er diesen Satz ausdrucken, auf ein Blatt Papier schreiben und einem zweiten, separaten Übersetzer (dem Embedding-Modell) geben.
Dieser Übersetzer wandelt den Satz in einen geheimen Code (einen Vektor) um, damit die Datenbank ihn versteht.
Erst dann wird gesucht.

Das Problem: Der Assistent hat den Satz doch schon im Kopf! Er hat die Bedeutung, den Kontext und die Absicht bereits verarbeitet. Das „Ausdrucken" und der „zweite Übersetzer" sind wie ein unnötiger Umweg. Es kostet Zeit und Rechenleistung, nur um etwas zu tun, das der Assistent eigentlich schon kann.

Die Lösung: Der direkte Draht

Die Autoren dieses Papiers sagen: „Warum den Umweg machen?"

Ihre Idee ist genial einfach:
Statt den Satz auszusprechen und ihn dann übersetzen zu lassen, bauen sie dem Assistenten einen kleinen, leichten Adapter (eine Art „Brille" oder „Projektor") direkt ins Gehirn.

Wie es funktioniert: Während der Assistent denkt, schaut dieser Adapter direkt in seine Gedanken (die sogenannten Hidden States). Er nimmt diese Gedanken und projiziert sie sofort in den geheimen Code, den die Datenbank versteht.
Das Ergebnis: Der Assistent sucht direkt mit seinen eigenen Gedanken. Der zweite Übersetzer (das separate Embedding-Modell) wird überflüssig und kann nach Hause geschickt werden.

Wie wird der Adapter trainiert? (Die drei Lehrer)

Damit der kleine Adapter lernt, die Gedanken des Assistenten richtig zu übersetzen, muss er von einem „Meister" (dem alten, separaten Übersetzer) lernen. Dafür gibt es drei spezielle Übungen:

Der Spiegel (Alignment): Der Adapter versucht, genau denselben Code zu produzieren wie der Meister. „Wenn der Meister sagt 'Pizza', muss dein Code auch 'Pizza' bedeuten."
Der Vergleich (Contrastive): Der Adapter lernt, Dinge richtig zu sortieren. „Der Code für 'Pizza' muss näher am Code für 'Essen' liegen als am Code für 'Auto'."
Die Rangliste (Rank Distillation): Der Meister zeigt dem Adapter nicht nur die Codes, sondern auch, welche Suchergebnisse am besten sind. Der Adapter lernt: „Achte darauf, welche Dokumente der Meister als 'gute Treffer' auswählt."

Das Ergebnis: Schnell und fast genauso gut

Die Forscher haben das auf einem Test mit vielen Gesprächen ausprobiert. Das Ergebnis ist beeindruckend:

Qualität: Der neue, direkte Weg ist zu 97 % genauso gut wie der alte, umständliche Weg. Er findet fast genau die gleichen richtigen Antworten.
Geschwindigkeit: Da der zweite Übersetzer fehlt, ist die Suche 21-mal schneller! (Von 43 Millisekunden auf nur 2 Millisekunden pro Suche).
Einfachheit: Man braucht nur noch ein Modell statt zwei. Das spart Platz und Energie.

Ein kleiner Haken

Es ist nicht perfekt. Bei sehr schwierigen oder seltenen Fragen macht der alte Weg immer noch ein paar Treffer mehr. Aber für den Alltag ist der neue Weg so schnell und effizient, dass der kleine Qualitätsverlust kaum ins Gewicht fällt.

Zusammenfassend:
Die Forscher haben bewiesen, dass man für die Suche im Internet nicht zwei verschiedene Köpfe braucht. Ein einziger, kluger Kopf reicht völlig aus, wenn man ihm nur einen kleinen Adapter gibt, damit er seine eigenen Gedanken direkt in Suchbefehle verwandeln kann. Es ist, als würde man einen Dolmetscher feuern, weil der Reisende plötzlich selbst fließend die Sprache spricht – nur viel schneller.

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Das Problem: Der unnötige Umweg

Die Lösung: Der direkte Draht

Wie wird der Adapter trainiert? (Die drei Lehrer)

Das Ergebnis: Schnell und fast genauso gut

Ein kleiner Haken

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Limitationen

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Das Problem: Der unnötige Umweg

Die Lösung: Der direkte Draht

Wie wird der Adapter trainiert? (Die drei Lehrer)

Das Ergebnis: Schnell und fast genauso gut

Ein kleiner Haken

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Limitationen

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance