KARL: Knowledge Agents via Reinforcement Learning

Das Paper stellt KARL vor, ein System, das durch eine neue iterative Reinforcement-Learning-Paradigme und eine synthetische Trainingspipeline auf dem umfassenden KARLBench-Testset state-of-the-art-Ergebnisse bei unternehmensinternen Suchaufgaben erzielt und dabei geschlossene Modelle wie Claude 4.6 sowie GPT 5.2 in Bezug auf Kosten, Latenz und Qualität übertrifft.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ KARL: Der Detektiv, der lernt, wie man den perfekten Beweis findet

Stell dir vor, du hast einen sehr intelligenten Assistenten (eine KI), der alles weiß, was in seinem Gedächtnis gespeichert ist. Aber was passiert, wenn du ihn fragst: "Was steht in den vertraulichen Notizen unseres Unternehmens über das Projekt 'X'?" oder "Finde mir den spezifischen Arzt in Berlin, der 1998 einen bestimmten Preis gewann und heute eine Klinik leitet?"

Der normale Assistent rät vielleicht oder erfindet etwas, weil er diese Informationen nicht auswendig gelernt hat. KARL (Knowledge Agents via Reinforcement Learning) ist anders. KARL ist wie ein Detektiv, der nicht nur weiß, wie man liest, sondern wie man sucht.

Hier ist die Geschichte, wie Databricks diesen Detektiv gebaut hat:

1. Das Problem: Der "Blinde" Sucher

Frühere KIs waren wie jemand, der versucht, ein Buch zu lesen, indem er nur die Rückseite betrachtet. Sie können gut reden, aber wenn sie echte, harte Fakten aus riesigen Datenmengen (wie Firmennotizen oder medizinische Berichte) finden müssen, scheitern sie oft. Sie geben zu schnell auf oder suchen im Kreis, ohne etwas zu finden.

2. Die Lösung: Ein Trainingscamp für Detektive

Databricks hat KARL nicht einfach nur "gelernt" lassen, indem sie ihm Fragen stellten. Sie haben ihn in ein extremes Trainingscamp geschickt.

  • Die Übung: Stell dir vor, du musst eine Nadel im Heuhaufen finden. Aber der Heuhaufen ist riesig und besteht aus Millionen von verschiedenen Dokumenten.
  • Die Methode (Reinforcement Learning): KARL hat nicht einfach nur Fragen beantwortet. Er hat Tausende von Such-Simulationen durchgeführt.
    • Wenn er gut gesucht hat (z. B. die richtige Nadel gefunden), bekam er einen "Stern" (Belohnung).
    • Wenn er sich verlaufen hat oder die falsche Nadel nahm, bekam er eine "Rote Karte" (Strafe).
    • Über viele Runden hinweg hat er gelernt: "Aha! Wenn ich zuerst nach dem Jahr suche, finde ich die Nadel schneller. Wenn ich zu viele Dokumente auf einmal lese, vergesse ich den Anfang."

3. Der geheime Trick: Selbstgemachte Aufgaben (Agentic Synthesis)

Das Schwierigste an solchen Trainings ist: Woher bekommt man genug schwierige Aufgaben?
Databricks hat einen cleveren Trick angewendet: Sie haben KARL benutzt, um sich selbst neue Aufgaben zu erfinden.

  • Analogie: Stell dir vor, du willst einen Schachspieler trainieren. Anstatt nur alte Partien zu spielen, lässt du den Computer gegen sich selbst spielen, neue, verrückte Szenarien erfinden und dann die Lösungen dafür suchen.
  • KARL hat also selbst schwierige Fragen generiert, die Antworten gesucht und dann gelernt, wie man diese Fragen am besten löst. Je besser er wurde, desto schwieriger wurden die Aufgaben, die er sich selbst stellte. Das nennt man iteratives Bootstrapping (sich selbst hochziehen).

4. Der neue Motor: "Off-Policy" Lernen

Normalerweise lernt ein KI-Modell nur aus den Daten, die es gerade gerade produziert (wie ein Schüler, der nur aus dem Buch lernt, das er gerade in der Hand hält).
KARL nutzt eine Methode namens Off-Policy RL.

  • Analogie: Stell dir vor, ein Koch lernt nicht nur, indem er selbst kocht, sondern indem er Tausende von Kochvideos von anderen Meistern anschaut, analysiert, was gut lief und was schlecht, und dann seine eigenen Rezepte verbessert. Er lernt aus der Erfahrung anderer, ohne selbst jedes Gericht kochen zu müssen. Das macht ihn viel schneller und effizienter.

5. Das Ergebnis: Der Pareto-Optimale Super-Agent

Am Ende war KARL nicht nur gut, sondern besser als die teuersten und bekanntesten Modelle (wie Claude oder GPT), aber zu einem Bruchteil der Kosten und in kürzerer Zeit.

  • Kosten-Leistung: KARL ist wie ein Fahrrad, das so schnell fährt wie ein Sportwagen, aber nur einen Cent an Treibstoff kostet.
  • Geschwindigkeit: Er findet die Antworten schneller, weil er nicht mehr im Kreis sucht, sondern direkt zum Ziel navigiert.
  • Generalisierung: Das Wichtigste: KARL hat nicht nur gelernt, eine Art von Frage zu beantworten. Er hat gelernt, wie man sucht. Deshalb funktioniert er auch bei Aufgaben, für die er nie explizit trainiert wurde (z. B. bei medizinischen Fragen, obwohl er hauptsächlich mit Firmennotizen trainiert wurde).

Zusammenfassung in einem Satz:

Databricks hat eine KI namens KARL gebaut, die durch selbstgestellte, schwierige Suchaufgaben und intelligentes Lernen aus Fehlern gelernt hat, wie man wie ein erfahrener Detektiv durch riesige Datenmengen jagt – und dabei schneller, billiger und genauer ist als alle anderen aktuellen Modelle.

KARL ist also nicht nur ein "Wissensspeicher", sondern ein "Wissens-Jäger". 🕵️‍♂️🚀

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →