KARL: Knowledge Agents via Reinforcement Learning

Deze paper introduceert KARL, een systeem dat via multi-task versterkt leren en synthetische trainingsdata state-of-the-art prestaties bereikt op diverse complexe zoektaken binnen ondernemingen, waarbij het zelfs gesloten modellen zoals Claude 4.6 en GPT 5.2 overtreft op kosten-kwaliteit en latentie-kwaliteit afwegingen.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde assistent hebt die je helpt bij het zoeken naar informatie. Soms vindt deze assistent het juiste antwoord, maar vaak verdwaalt hij in een doolhof van documenten, raakt hij de draad kwijt, of geeft hij te snel op.

Databricks heeft een nieuwe assistent bedacht die KARL heet. De naam is een knipoog naar "Karl the Fog" (de mist die vaak over San Francisco hangt), maar in dit geval is KARL de held die de mist wegdrijft.

Hier is hoe KARL werkt, vertaald in alledaags taalgebruik:

1. Het Probleem: De "Blinde" Zoeker

Stel je voor dat je een detective bent die een zaak moet oplossen. Je hebt een enorme bibliotheek met miljoenen boeken (data) waar je niet in hebt gelezen voordat je begon.

  • De oude manier: Je leest een boek, schrijft een samenvatting, leest het volgende, en probeert het allemaal in je hoofd te houden. Als de zaak te complex is, raak je de draad kwijt of vergeten je belangrijke details.
  • De nieuwe uitdaging: Bedrijven hebben vaak eigen, geheime documenten (zoals interne notities of financiële rapporten) die geen enkele AI kent. Een standaard AI kan hier niet mee omgaan omdat hij niet "gezien" heeft wat erin staat.

2. De Oplossing: KARL, de Leraar die Leerling wordt

KARL is geen gewone AI die zomaar antwoorden geeft. Het is een agent die leert door te oefenen, net als een sporter die traint voor de Olympische Spelen.

Hoe heeft Databricks KARL getraind?
In plaats van hem alleen maar boeken te laten lezen, hebben ze hem een virtuele trainingscampus gegeven.

  • De Simulatie (Agentic Synthesis): Stel je voor dat ze een robot hebben gebouwd die zelf vragen bedenkt. Deze robot zoekt door de documenten, bedenkt een lastige vraag ("Wie was de eerste CEO van dit bedrijf die niet een oprichter was?"), en zoekt het antwoord.
  • Het Oefenen (Reinforcement Learning): KARL krijgt deze vraag. Hij probeert het antwoord te vinden door te zoeken, te lezen en te redeneren.
    • Als hij het goed doet, krijgt hij een beloning (een puntje).
    • Als hij verdwaalt, te veel zoekt, of het verkeerde antwoord geeft, krijgt hij geen punt.
    • Na duizenden keren oefenen, leert KARL: "Ah, als ik eerst dit soort vragen stel, vind ik sneller het antwoord!"

3. De Slimme Truc: "Meerdere Hersenen" (Parallel Thinking)

Soms is een vraag zo moeilijk dat zelfs de slimste mens het niet in één keer snapt.
Stel je voor dat je een moeilijk raadsel hebt. In plaats van dat jij er alleen over nadenkt, roep je 10 vrienden bij elkaar.

  • Elk van hen denkt na en komt met een antwoord.
  • Vervolgens nemen jullie het antwoord van de 10 vrienden en laten een 11e vriend (de "aggregator") alle antwoorden samenvoegen.
  • Deze 11e vriend kijkt: "Oké, vriend 1 had dit goed, vriend 2 had dat goed, en samen hebben we het volledige plaatje."

KARL doet precies dit. Hij laat zijn "hersenen" 10 keer parallel nadenken over dezelfde vraag en plakt de beste stukjes van die antwoorden aan elkaar. Dit maakt hem veel slimmer dan als hij het alleen zou doen.

4. Waarom is KARL zo goed? (De Vergelijking)

De paper vergelijkt KARL met andere bekende AI-modellen (zoals die van Google, OpenAI en Anthropic).

  • De concurrenten zijn vaak als een luxueuze, dure auto. Ze zijn snel en kunnen veel, maar ze zijn duur om te rijden (hoge kosten) en verbruiken veel brandstof (tijd).
  • KARL is als een slimme, efficiënte fiets. Hij is veel goedkoper, sneller in het vinden van de route, en kan net zo ver komen als de dure auto, maar dan met minder moeite.

Bovendien is KARL veelzijdiger.

  • Een andere AI is misschien een meester in het zoeken naar cijfers in een financieel rapport, maar faalt als het gaat om het samenvatten van medische artikelen.
  • KARL is getraind op alles: van het vinden van specifieke personen tot het samenvatten van complexe technische handleidingen. Hij is de "zwitserse zakmes" van de zoekagenten.

5. Het Grote Geheim: Het Leren van de "Goede" Fouten

Een van de belangrijkste ontdekkingen is dat KARL leert om niet te veel te zoeken.

  • De oude AI's (zoals GLM 4.5 Air) waren vaak als een hond die een bal achterna jaagt, maar de bal al lang heeft gevonden en toch blijft rennen tot hij moe is. Ze zoeken 200 keer, terwijl het antwoord al bij zoektocht nummer 5 klaar was.
  • KARL leert door zijn training: "Oké, ik heb genoeg informatie. Ik kan nu het antwoord geven." Hij stopt op het juiste moment. Dit bespaart tijd en geld.

Samenvatting in één zin

KARL is een slimme zoekmachine die is getraind door duizenden keren te oefenen op moeilijke vragen, zodat hij sneller, goedkoper en accurater is dan de beste menselijke experts of andere AI's, en die zelfs nog slimmer wordt als je hem toestaat om met meerdere "versies van zichzelf" tegelijk na te denken.

Het is de toekomst van het vinden van informatie in een wereld vol met data: niet meer blind zoeken, maar slim zoeken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →