KARL: Knowledge Agents via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwarde assistent hebt die je helpt bij het zoeken naar informatie. Soms vindt deze assistent het juiste antwoord, maar vaak verdwaalt hij in een doolhof van documenten, raakt hij de draad kwijt, of geeft hij te snel op.

Databricks heeft een nieuwe assistent bedacht die KARL heet. De naam is een knipoog naar "Karl the Fog" (de mist die vaak over San Francisco hangt), maar in dit geval is KARL de held die de mist wegdrijft.

Hier is hoe KARL werkt, vertaald in alledaags taalgebruik:

1. Het Probleem: De "Blinde" Zoeker

Stel je voor dat je een detective bent die een zaak moet oplossen. Je hebt een enorme bibliotheek met miljoenen boeken (data) waar je niet in hebt gelezen voordat je begon.

De oude manier: Je leest een boek, schrijft een samenvatting, leest het volgende, en probeert het allemaal in je hoofd te houden. Als de zaak te complex is, raak je de draad kwijt of vergeten je belangrijke details.
De nieuwe uitdaging: Bedrijven hebben vaak eigen, geheime documenten (zoals interne notities of financiële rapporten) die geen enkele AI kent. Een standaard AI kan hier niet mee omgaan omdat hij niet "gezien" heeft wat erin staat.

2. De Oplossing: KARL, de Leraar die Leerling wordt

KARL is geen gewone AI die zomaar antwoorden geeft. Het is een agent die leert door te oefenen, net als een sporter die traint voor de Olympische Spelen.

Hoe heeft Databricks KARL getraind?
In plaats van hem alleen maar boeken te laten lezen, hebben ze hem een virtuele trainingscampus gegeven.

De Simulatie (Agentic Synthesis): Stel je voor dat ze een robot hebben gebouwd die zelf vragen bedenkt. Deze robot zoekt door de documenten, bedenkt een lastige vraag ("Wie was de eerste CEO van dit bedrijf die niet een oprichter was?"), en zoekt het antwoord.
Het Oefenen (Reinforcement Learning): KARL krijgt deze vraag. Hij probeert het antwoord te vinden door te zoeken, te lezen en te redeneren.
- Als hij het goed doet, krijgt hij een beloning (een puntje).
- Als hij verdwaalt, te veel zoekt, of het verkeerde antwoord geeft, krijgt hij geen punt.
- Na duizenden keren oefenen, leert KARL: "Ah, als ik eerst dit soort vragen stel, vind ik sneller het antwoord!"

3. De Slimme Truc: "Meerdere Hersenen" (Parallel Thinking)

Soms is een vraag zo moeilijk dat zelfs de slimste mens het niet in één keer snapt.
Stel je voor dat je een moeilijk raadsel hebt. In plaats van dat jij er alleen over nadenkt, roep je 10 vrienden bij elkaar.

Elk van hen denkt na en komt met een antwoord.
Vervolgens nemen jullie het antwoord van de 10 vrienden en laten een 11e vriend (de "aggregator") alle antwoorden samenvoegen.
Deze 11e vriend kijkt: "Oké, vriend 1 had dit goed, vriend 2 had dat goed, en samen hebben we het volledige plaatje."

KARL doet precies dit. Hij laat zijn "hersenen" 10 keer parallel nadenken over dezelfde vraag en plakt de beste stukjes van die antwoorden aan elkaar. Dit maakt hem veel slimmer dan als hij het alleen zou doen.

4. Waarom is KARL zo goed? (De Vergelijking)

De paper vergelijkt KARL met andere bekende AI-modellen (zoals die van Google, OpenAI en Anthropic).

De concurrenten zijn vaak als een luxueuze, dure auto. Ze zijn snel en kunnen veel, maar ze zijn duur om te rijden (hoge kosten) en verbruiken veel brandstof (tijd).
KARL is als een slimme, efficiënte fiets. Hij is veel goedkoper, sneller in het vinden van de route, en kan net zo ver komen als de dure auto, maar dan met minder moeite.

Bovendien is KARL veelzijdiger.

Een andere AI is misschien een meester in het zoeken naar cijfers in een financieel rapport, maar faalt als het gaat om het samenvatten van medische artikelen.
KARL is getraind op alles: van het vinden van specifieke personen tot het samenvatten van complexe technische handleidingen. Hij is de "zwitserse zakmes" van de zoekagenten.

5. Het Grote Geheim: Het Leren van de "Goede" Fouten

Een van de belangrijkste ontdekkingen is dat KARL leert om niet te veel te zoeken.

De oude AI's (zoals GLM 4.5 Air) waren vaak als een hond die een bal achterna jaagt, maar de bal al lang heeft gevonden en toch blijft rennen tot hij moe is. Ze zoeken 200 keer, terwijl het antwoord al bij zoektocht nummer 5 klaar was.
KARL leert door zijn training: "Oké, ik heb genoeg informatie. Ik kan nu het antwoord geven." Hij stopt op het juiste moment. Dit bespaart tijd en geld.

Samenvatting in één zin

KARL is een slimme zoekmachine die is getraind door duizenden keren te oefenen op moeilijke vragen, zodat hij sneller, goedkoper en accurater is dan de beste menselijke experts of andere AI's, en die zelfs nog slimmer wordt als je hem toestaat om met meerdere "versies van zichzelf" tegelijk na te denken.

Het is de toekomst van het vinden van informatie in een wereld vol met data: niet meer blind zoeken, maar slim zoeken.

Each language version is independently generated for its own context, not a direct translation.

Titel: KARL: Knowledge Agents via Reinforcement Learning

Auteurs: Databricks AI Research
Datum: 6 maart 2026

1. Het Probleem

Moderne kennisagenten (systemen die iteratief informatie opvragen, ophalen en redeneren over grote datasets) staan voor de uitdaging om "grounded reasoning" (gebaseerd op feitelijke bewijsvoering) uit te voeren in complexe, realistische zakelijke omgevingen. Bestaande modellen hebben moeite met taken die:

Multi-stap informatieverzameling vereisen.
Redeneren gebaseerd op kennis die niet in de modelparameters is opgeslagen (bijv. proprietair bedrijfsdata).
Verschillende vaardigheden combineren, zoals het filteren van entiteiten op basis van meerdere constraints, het synthetiseren van rapporten uit meerdere documenten, numeriek redeneren over tabellen, en het aggregeren van feiten uit interne notities.

Bestaande benchmarks zijn vaak beperkt tot één type taak of vertrouwen op openbare webdata, waardoor ze de generalisatie naar diverse, moeilijk te verifiëren zakelijke zoekopdrachten niet goed meten. Er is een gebrek aan systemen die kostenefficiënt en robuust presteren over een breed scala aan deze taken.

2. Methodologie

De auteurs introduceren KARL, een agent die is getraind via versterkingslering (Reinforcement Learning - RL) om deze uitdagingen aan te pakken. De aanpak bestaat uit vier pijlers:

A. KARLBench: Een Multi-Capaciteit Evaluatie Suite

Om de prestaties te meten, hebben de auteurs KARLBench ontwikkeld, een benchmark die zes verschillende zoekregimes omvat:

Constraint-driven entity search: Het vinden van een enkele entiteit die aan meerdere voorwaarden voldoet (bijv. BrowseComp-Plus).
Cross-document report synthesis: Het samenvoegen van verspreide medische of technische bevindingen in een coherent rapport (bijv. TREC-Biogen).
Tabular numerical reasoning: Numerieke berekeningen over lange financiële rapporten (FinanceBench).
Exhaustive entity retrieval: Het volledig vinden van alle entiteiten die aan een criterium voldoen (QAMPARI).
Procedural reasoning: Het oplossen van technische problemen op basis van documentatie (FreshStack).
Fact aggregation over interne notities: Het vinden van feiten in ruwe, interne bedrijfsdata (PMBench).

B. Agente Synthese Pipeline

Omdat hoogwaardige, moeilijke trainingsdata schaars is, hebben de auteurs een agente synthesepijplijn ontwikkeld:

Een agent gebruikt vectorzoekopdrachten om een corpus te verkennen en genereert synthetische vraag-antwoordparen die gebaseerd zijn op gevonden bewijs.
Een Deduplicatie-agent verwijdert duplicaten.
Een Solver-agent probeert de gegenereerde vragen op te lossen. Alleen vragen waarbij de agent een gemengd succespercentage heeft (niet te makkelijk, niet onoplosbaar) worden behouden.
Een Kwaliteitsfilter-agent controleert op ambiguïteit en feitelijke onjuistheden.
Dit proces wordt iteratief herhaald, waarbij de verbeterde agent wordt gebruikt om nog betere data te genereren (bootstrapping).

C. Iteratief Large-Batch Off-Policy RL (OAPL)

In plaats van online RL (zoals GRPO), gebruiken de auteurs OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference):

Off-Policy: De data wordt gegenereerd door een referentiemodel ( $\pi_{ref}$ ) en het doelmodel ( $\pi$ ) wordt getraind op deze statische dataset. Dit maakt het robuust tegen verschillen tussen het trainings- en inferentie-engine.
Large-Batch: Het trainen op grote batches van rollouts maakt het mogelijk om de kosten van datageneratie te spreiden over meerdere updates.
Multi-task: De methode combineert verliesfuncties van verschillende taken (bijv. BrowseComp-Plus en TREC-Biogen) om generalisatie te bevorderen zonder complexe heuristieken.
Context Management: De agent leert context te comprimeren (samenvatten) wanneer de tokenlimiet wordt bereikt, wat end-to-end wordt geoptimaliseerd via de RL-reward.

D. Test-Time Compute (TTC) Schaling

Om de prestaties verder te verhogen, worden twee strategieën toegepast tijdens de inferentie:

Parallel Thinking: Het genereren van $N$ parallelle rollouts die vervolgens worden geaggregeerd door een aggregator-agent.
Value-Guided Search (VGS): Een waarde-model voorspelt de succeskans van een gedeeltelijke rollout en leidt een boomzoektocht om de beste paden te selecteren.

3. Belangrijkste Bijdragen

KARLBench: Een uitgebreide benchmark voor grounded reasoning die zes verschillende zoekregimes dekt, inclusief een nieuw intern benchmark (PMBench).
Agente Data Synthese: Een robuust proces voor het genereren van diverse, gebaseerde en moeilijke trainingsdata via iteratief bootstrapping.
OAPL Framework: Een nieuwe post-training paradijm gebaseerd op iteratief large-batch off-policy RL dat schaalbaar is voor grote MoE-modellen en generaliseert over taken zonder de complexiteit van online RL-heuristieken.
Pareto-Optimaliteit: Het aantonen dat KARL een superieure afweging biedt tussen kosten, latentie en kwaliteit vergeleken met state-of-the-art gesloten modellen.

4. Resultaten

De resultaten worden gepresenteerd op KARLBench en vergeleken met modellen zoals Claude 4.6, GPT 5.2, en Qwen 3.5.

Prestaties: KARL bereikt state-of-the-art prestaties. Zonder test-time compute presteert het gelijk aan of beter dan Claude Sonnet 4.5. Met 10 parallelle rollouts (Parallel Thinking) bereikt KARL de kwaliteit van Claude Opus 4.6 (het sterkste gesloten model in de vergelijking).
Kosten en Latentie: KARL is aanzienlijk kostenefficiënter. Het bereikt vergelijkbare kwaliteit als Opus 4.6 voor ongeveer 33% lagere kosten per query. In termen van latentie is KARL de snelste model boven de 55 punten score, zelfs met parallelle verwerking.
Generalisatie: Modellen getraind op meerdere taken (Multi-task RL) generaliseren aanzienlijk beter naar out-of-distribution taken dan modellen die op één taak zijn geoptimaliseerd of modellen die zijn gedistilleerd van experts (SFT).
Efficiëntie: RL-training leidt tot kortere zoektrajecten en minder redundantie. De agent leert wanneer te stoppen met zoeken en wanneer te vertrouwen op partiële bewijslast, wat resulteert in minder tokenverbruik.
Capaciteitsuitbreiding: Analyse toont aan dat RL niet alleen de waarschijnlijkheid van bestaande correcte antwoorden verhoogt ("sharpening"), maar ook de capaciteit van het model uitbreidt om problemen op te lossen die het basismodel niet kon oplossen (zichtbaar in de verbetering van max@k over alle $k$ ).

5. Betekenis en Conclusie

Het paper demonstreert dat specifiek ontworpen synthetische data in combinatie met multi-task versterkingslering een krachtige route is om kostenefficiënte, hoogpresterende kennisagenten te creëren.

Praktische Impact: Voor ondernemingen betekent dit dat het mogelijk is om agenten te bouwen die werken met proprietair data (zoals interne notities, financiële rapporten, technische documentatie) met een kwaliteit die concurreert met de duurste gesloten modellen, maar tegen een fractie van de kosten.
Technische Innovatie: De introductie van OAPL lost het probleem van instabiliteit bij large-scale off-policy RL voor MoE-modellen op, waardoor het trainen van complexe agenten zonder ingewikkelde heuristieken mogelijk wordt.
Toekomst: De auteurs wijzen erop dat de huidige agent slechts één tool (vector search) gebruikt. De toekomst ligt in het uitbreiden van de actieruimte naar code-executie, gestructureerde ophaling en composabele sub-agenten, terwijl de focus blijft liggen op het optimaliseren van de Pareto-grens tussen kosten en kwaliteit.

Kortom, KARL bewijst dat grondig redeneren en zoeken niet langer het exclusieve domein van enorme, dure gesloten modellen hoeft te zijn, maar haalbaar is via slimme trainingsmethodieken en open-source architecturen.