KARL: Knowledge Agents via Reinforcement Learning

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle

Veröffentlicht 2026-03-06

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ KARL: Der Detektiv, der lernt, wie man den perfekten Beweis findet

Stell dir vor, du hast einen sehr intelligenten Assistenten (eine KI), der alles weiß, was in seinem Gedächtnis gespeichert ist. Aber was passiert, wenn du ihn fragst: "Was steht in den vertraulichen Notizen unseres Unternehmens über das Projekt 'X'?" oder "Finde mir den spezifischen Arzt in Berlin, der 1998 einen bestimmten Preis gewann und heute eine Klinik leitet?"

Der normale Assistent rät vielleicht oder erfindet etwas, weil er diese Informationen nicht auswendig gelernt hat. KARL (Knowledge Agents via Reinforcement Learning) ist anders. KARL ist wie ein Detektiv, der nicht nur weiß, wie man liest, sondern wie man sucht.

Hier ist die Geschichte, wie Databricks diesen Detektiv gebaut hat:

1. Das Problem: Der "Blinde" Sucher

Frühere KIs waren wie jemand, der versucht, ein Buch zu lesen, indem er nur die Rückseite betrachtet. Sie können gut reden, aber wenn sie echte, harte Fakten aus riesigen Datenmengen (wie Firmennotizen oder medizinische Berichte) finden müssen, scheitern sie oft. Sie geben zu schnell auf oder suchen im Kreis, ohne etwas zu finden.

2. Die Lösung: Ein Trainingscamp für Detektive

Databricks hat KARL nicht einfach nur "gelernt" lassen, indem sie ihm Fragen stellten. Sie haben ihn in ein extremes Trainingscamp geschickt.

Die Übung: Stell dir vor, du musst eine Nadel im Heuhaufen finden. Aber der Heuhaufen ist riesig und besteht aus Millionen von verschiedenen Dokumenten.
Die Methode (Reinforcement Learning): KARL hat nicht einfach nur Fragen beantwortet. Er hat Tausende von Such-Simulationen durchgeführt.
- Wenn er gut gesucht hat (z. B. die richtige Nadel gefunden), bekam er einen "Stern" (Belohnung).
- Wenn er sich verlaufen hat oder die falsche Nadel nahm, bekam er eine "Rote Karte" (Strafe).
- Über viele Runden hinweg hat er gelernt: "Aha! Wenn ich zuerst nach dem Jahr suche, finde ich die Nadel schneller. Wenn ich zu viele Dokumente auf einmal lese, vergesse ich den Anfang."

3. Der geheime Trick: Selbstgemachte Aufgaben (Agentic Synthesis)

Das Schwierigste an solchen Trainings ist: Woher bekommt man genug schwierige Aufgaben?
Databricks hat einen cleveren Trick angewendet: Sie haben KARL benutzt, um sich selbst neue Aufgaben zu erfinden.

Analogie: Stell dir vor, du willst einen Schachspieler trainieren. Anstatt nur alte Partien zu spielen, lässt du den Computer gegen sich selbst spielen, neue, verrückte Szenarien erfinden und dann die Lösungen dafür suchen.
KARL hat also selbst schwierige Fragen generiert, die Antworten gesucht und dann gelernt, wie man diese Fragen am besten löst. Je besser er wurde, desto schwieriger wurden die Aufgaben, die er sich selbst stellte. Das nennt man iteratives Bootstrapping (sich selbst hochziehen).

4. Der neue Motor: "Off-Policy" Lernen

Normalerweise lernt ein KI-Modell nur aus den Daten, die es gerade gerade produziert (wie ein Schüler, der nur aus dem Buch lernt, das er gerade in der Hand hält).
KARL nutzt eine Methode namens Off-Policy RL.

Analogie: Stell dir vor, ein Koch lernt nicht nur, indem er selbst kocht, sondern indem er Tausende von Kochvideos von anderen Meistern anschaut, analysiert, was gut lief und was schlecht, und dann seine eigenen Rezepte verbessert. Er lernt aus der Erfahrung anderer, ohne selbst jedes Gericht kochen zu müssen. Das macht ihn viel schneller und effizienter.

5. Das Ergebnis: Der Pareto-Optimale Super-Agent

Am Ende war KARL nicht nur gut, sondern besser als die teuersten und bekanntesten Modelle (wie Claude oder GPT), aber zu einem Bruchteil der Kosten und in kürzerer Zeit.

Kosten-Leistung: KARL ist wie ein Fahrrad, das so schnell fährt wie ein Sportwagen, aber nur einen Cent an Treibstoff kostet.
Geschwindigkeit: Er findet die Antworten schneller, weil er nicht mehr im Kreis sucht, sondern direkt zum Ziel navigiert.
Generalisierung: Das Wichtigste: KARL hat nicht nur gelernt, eine Art von Frage zu beantworten. Er hat gelernt, wie man sucht. Deshalb funktioniert er auch bei Aufgaben, für die er nie explizit trainiert wurde (z. B. bei medizinischen Fragen, obwohl er hauptsächlich mit Firmennotizen trainiert wurde).

Zusammenfassung in einem Satz:

Databricks hat eine KI namens KARL gebaut, die durch selbstgestellte, schwierige Suchaufgaben und intelligentes Lernen aus Fehlern gelernt hat, wie man wie ein erfahrener Detektiv durch riesige Datenmengen jagt – und dabei schneller, billiger und genauer ist als alle anderen aktuellen Modelle.

KARL ist also nicht nur ein "Wissensspeicher", sondern ein "Wissens-Jäger". 🕵️‍♂️🚀

Each language version is independently generated for its own context, not a direct translation.

Titel: KARL: Knowledge Agents via Reinforcement Learning

Veröffentlichung: Databricks AI Research (März 2026)
Kernthema: Entwicklung eines hocheffizienten, auf Reinforcement Learning (RL) basierenden Wissensagents für „grounded reasoning" (fundiertes Schlussfolgern) in Unternehmensumgebungen.

1. Problemstellung

Moderne Wissensagenten (Knowledge Agents) müssen komplexe Aufgaben lösen, die das iterative Abfragen, Abrufen und Schlussfolgern über große Datenmengen erfordern. Diese Aufgaben zeichnen sich durch zwei Hauptfähigkeiten aus:

Mehrschrittige Informationsbeschaffung: Das Sammeln von Beweisen aus verteilten Quellen.
Fundiertes Schlussfolgern: Das Ableiten von Antworten basierend auf diesen Beweisen, nicht nur auf dem im Modell trainierten Wissen.

Herausforderungen:

Fehlende Generalisierung: Bisherige Modelle sind oft auf spezifische Benchmarks (z. B. nur Mathematik oder nur Web-Suche) optimiert und scheitern bei der Übertragung auf andere Domänen (z. B. von medizinischen Berichten zu Finanztabellen).
Mangel an hochwertigen Trainingsdaten: Das Erstellen von Trainingsdaten für schwierige, schwer verifizierbare Suchaufgaben ist komplex. Statische Synthese oder einfaches Prompting reichen oft nicht aus, um diverse und fundierte Daten zu generieren.
Ineffizienz und Kosten: State-of-the-Art-Modelle (wie GPT-5 oder Claude Opus) sind oft teuer und langsam, insbesondere wenn sie Test-time Compute (TTC) benötigen, um gute Ergebnisse zu erzielen.
RL-Stabilität: Das Training von Agenten mit Online-RL (z. B. GRPO) bei großen Mixture-of-Experts (MoE) Modellen ist instabil und erfordert komplexe Heuristiken zur Stabilisierung.

2. Methodik

Das Paper stellt einen ganzheitlichen Ansatz vor, der aus vier Hauptkomponenten besteht:

A. KARLBench: Ein umfassender Evaluierungs-Suite

Um die Fähigkeiten von Wissensagenten zu messen, wurde KARLBench entwickelt. Es deckt sechs verschiedene Suchregime ab, die unterschiedliche Fähigkeiten testen:

Constraint-driven entity search: Finden einer einzigen Entität, die multiple, verteilte Constraints erfüllt (z. B. BrowseComp-Plus).
Cross-document report synthesis: Zusammenführen von Informationen aus mehreren Dokumenten zu einem kohärenten Bericht (z. B. TREC-Biogen).
Tabular numerical reasoning: Numerische Berechnungen über lange Finanzberichte (FinanceBench).
Exhaustive entity retrieval: Auffinden aller relevanten Entitäten in einem Korpus (QAMPARI).
Procedural reasoning: Lösen technischer Probleme basierend auf Dokumentation (FreshStack).
Fact aggregation: Zusammenfassen von Fakten aus internen Unternehmensnotizen (PMBench).

B. Agentic Synthesis Pipeline (Daten generierung)

Da hochwertige Trainingsdaten für diese Aufgaben schwer zu beschaffen sind, entwickelte Databricks eine agente Synthesepipeline:

Stage I (Question-Answer Synthesis): Ein Agent erkundet das Korpus mittels Vektor-Suche und generiert neue, schwierige Frage-Antwort-Paare, die auf den gefundenen Beweisen basieren.
Stage II (Solution Synthesis & Filtering): Mehrere Instanzen eines „Solver-Agent" versuchen, die generierten Fragen zu beantworten.
- Pass-Rate Filtering: Fragen, die zu leicht (immer richtig) oder zu schwer (immer falsch) sind, werden verworfen. Nur Fragen mit gemischtem Erfolg (Partial) bleiben übrig, da sie den stärksten Lernsignal bieten.
- Quality Filter: Ein weiterer Agent prüft auf Ambiguität oder faktische Fehler in den generierten Daten.
Iteratives Bootstrapping: Das verbesserte Modell wird genutzt, um die nächste Generation von Trainingsdaten zu synthetisieren, was zu einer kontinuierlichen Qualitätssteigerung führt.

C. OAPL: Iteratives Large-Batch Off-Policy RL

Anstelle von Online-RL (wie GRPO) verwenden die Autoren OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference).

Off-Policy Ansatz: Das Training erfolgt auf einem großen Batch von Daten, die von einer Referenz-Policy ( $\pi_{ref}$ ) generiert wurden, nicht in Echtzeit.
Stabilität: Dieser Ansatz ist robust gegenüber Diskrepanzen zwischen Trainings- und Inferenz-Engine (z. B. vLLM) und benötigt keine komplexen Heuristiken wie Importance-Weighting-Clipping oder Router-Replay, die für große MoE-Modelle oft nötig sind.
Multi-Task Training: Die Verluste verschiedener Aufgaben (z. B. BrowseComp-Plus und TREC-Biogen) werden kombiniert, um ein generalisierendes Modell zu trainieren.

D. Test-Time Compute (TTC) Skalierung

Um die Leistung weiter zu steigern, werden zwei TTC-Strategien eingesetzt:

Parallel Thinking: Das Modell generiert $N$ parallele Rollouts (Suchpfade), die dann von einem Aggregator-Agent zusammengeführt werden. Dies ermöglicht eine bessere Antwortqualität als einfache Mehrheitsabstimmung, da der Aggregator komplementäre Informationen synthetisieren kann.
Value-Guided Search (VGS): Ein kleines Wertmodell (Value Model) bewertet Teilpfade während der Suche und leitet den Agenten zu den vielversprechendsten Zweigen (Tree Search).

3. Schlüsselbeiträge

KARLBench: Eine neue Benchmark-Suite, die die Generalisierungsfähigkeit von Agenten über verschiedene Suchdomänen hinweg testet und zeigt, dass Multi-Task-Training besser generalisiert als Single-Task-Optimierung.
Agentic Synthesis Pipeline: Ein bewährter Prozess zur automatischen Generierung von hochwertigen, fundierten und schwierigen Trainingsdaten durch iterative Selbstverbesserung.
OAPL (Off-Policy RL): Ein neuer Post-Training-Paradigma, das skalierbares, stabiles und kosteneffizientes RL-Training für große MoE-Modelle ohne komplexe Stabilisierungstechniken ermöglicht.
Pareto-Optimalität: KARL erreicht auf KARLBench eine Pareto-Optimalität in Bezug auf Kosten-Qualität und Latenz-Qualität im Vergleich zu den stärksten geschlossenen Modellen (Claude 4.6, GPT 5.2).

4. Ergebnisse

Leistung: KARL (basierend auf GLM 4.5 Air) erreicht State-of-the-Art-Ergebnisse auf KARLBench.
- Ohne Test-Time Compute ist KARL bereits mit Claude Sonnet 4.5 vergleichbar und übertrifft alle Open-Source-Modelle ähnlicher Größe.
- Mit 10 parallelen Rollouts (Parallel Thinking) erreicht KARL die Qualität von Claude Opus 4.6, dem stärksten geschlossenen Modell, bei deutlich geringeren Kosten.
Kosten und Latenz:
- KARL ist kosteneffizienter: Es erreicht hohe Scores zu einem Bruchteil der Kosten pro Query (unter $0,10 für Scores >55).
- Latenz: KARL ist das schnellste Modell unter denjenigen mit Scores >55. Selbst mit Parallel Thinking ist es bei gleicher Qualität ca. 47% schneller als Claude Opus 4.6.
Generalisierung: Das Modell generalisiert hervorragend auf Out-of-Distribution (OOD) Aufgaben, die während des Trainings nicht gesehen wurden. Im Gegensatz zu Modellen, die nur durch Distillation (SFT) trainiert wurden, profitiert KARL auch bei OOD-Aufgaben von Test-Time Compute.
Effizienzsteigerung durch RL: RL-Training führt zu kürzeren Suchpfaden (weniger Token-Overhead) und höherer Suchdiversität. Das Modell lernt, wann es aufhören soll zu suchen, und vermeidet redundante Verifikationszyklen.

5. Bedeutung und Fazit

Das Paper demonstriert, dass maßgeschneiderte synthetische Daten in Kombination mit Multi-Task-Reinforcement-Learning ein vielversprechender Weg sind, um kosteneffiziente, hochleistungsfähige Wissensagenten für fundiertes Schlussfolgern zu entwickeln.

Wirtschaftliche Relevanz: Die Fähigkeit, proprietäre Unternehmensdaten (z. B. interne Notizen, Finanzberichte) effizient zu durchsuchen und zu analysieren, ist für Unternehmen in Bereichen wie Finanzen, Recht und Medizin von enormem Wert.
Technischer Fortschritt: Die Einführung von OAPL löst das Problem der Instabilität beim RL-Training großer Modelle und macht skalierbares RL für die Industrie zugänglicher.
Zukunftsausblick: Die Autoren sehen Potenzial darin, die Action-Space des Agents zu erweitern (z. B. Code-Execution, strukturierte Abfragen) und die Kontextverwaltung durch hierarchische Speichermechanismen zu verbessern.

Zusammenfassend zeigt KARL, dass spezialisierte Agenten, die durch RL trainiert werden, nicht nur die Qualität geschlossener Modelle erreichen, sondern dies zu einem Bruchteil der Kosten und Latenz tun können, was sie für den Einsatz in der Enterprise-AI prädestiniert.