RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot team van experts hebt om complexe problemen op te lossen. Je hebt een paar supergeniale, maar dure professoren (grote AI-modellen) en een groep slimme, goedkope stagiairs (kleinere AI-modellen). Je hebt ook een budget voor hoeveel tijd ze mogen nadenken: soms is een snelle blik genoeg, soms moeten ze urenlang in de bibliotheek zoeken.

Het probleem? Als je voor elke vraag altijd de duurste professor met het langste nadenktijd huurt, ben je snel failliet. Maar als je voor elke vraag de goedkoopste stagiair kiest, mis je misschien het antwoord op de moeilijkste vragen.

RADAR is de slimme manager die dit team aanstuurt.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. De Slimme Manager (RADAR)

RADAR staat voor Reasoning-Ability and Difficulty-Aware Routing. In het Nederlands: een router die weet wat een vraag kost en wat een model kan.

Stel je voor dat je een postbode bent met een berg brieven.

Sommige brieven zijn simpele uitnodigingen voor een verjaardag (makkelijke vragen).
Sommige zijn complexe juridische contracten of wiskundige raadsels (moeilijke vragen).

RADAR kijkt naar de brief, schat hoe moeilijk hij is, en kijkt naar het team: "Wie kan dit het snelst en goedkoopst oplossen?"

Voor de verjaardagsuitnodiging stuur je de goedkope stagiair.
Voor het juridische contract stuur je de dure professor.
Voor een gemiddelde vraag kies je een middenweg.

Het doel is niet alleen om het antwoord te krijgen, maar om het beste prijs-kwaliteitverhouding te vinden.

2. De Psychologische Test (IRT)

Hoe weet RADAR hoe moeilijk een vraag is en hoe slim een model is? Het gebruikt een oude techniek uit het onderwijs, genaamd Item Response Theory (IRT).

In het onderwijs gebruiken leraren dit om te zien: "Is deze toetsvraag moeilijk voor een gemiddelde student?" en "Hoe goed is deze student?"
RADAR doet hetzelfde met AI:

Het leert dat een vraag over "Hoeveel is 2+2?" heel makkelijk is (laag moeilijkheidsniveau).
Het leert dat een vraag over "Hoe bereken je de baan van een raket?" heel moeilijk is (hoog moeilijkheidsniveau).
Het leert dat het kleine model Qwen3-0.6B goed is voor simpele vragen, maar dat het grote model OpenAI o4-mini nodig is voor de zware klus.

Het mooie is: RADAR ziet dit als cijfers. Het kan zeggen: "Deze vraag heeft een moeilijkheidsgraad van 8, en deze specifieke AI-configuratie heeft een vaardigheidsscore van 9." Daardoor is het systeem doorzichtig (je weet precies waarom het zo beslist) in plaats van een zwarte doos.

3. De "Adaptieve Test" (Nieuwe modellen toevoegen)

Stel, morgen komt er een nieuwe, supersterke AI op de markt. Moet RADAR dan maandenlang testen om te weten hoe goed die is? Nee!

RADAR gebruikt een truc uit de adaptieve testen (zoals bij een computerexamensysteem).

In plaats van de nieuwe AI duizenden vragen te laten beantwoorden, kiest RADAR slim een paar heel specifieke, moeilijke vragen uit.
Op basis van hoe de nieuwe AI die paar vragen beantwoordt, schat het systeem direct hoe goed de nieuwe AI is.
Dit is alsof je een nieuwe speler in een sportteam test met slechts één paar oefeningen in plaats van een heel seizoen, en toch precies weet waar hij staat.

4. Waarom is dit belangrijk?

Vroeger dachten mensen: "Gebruik altijd de beste AI, dan is het goed." Maar dat is als altijd de duurste auto huren, zelfs als je alleen naar de supermarkt gaat.

RADAR toont aan dat je met deze slimme verdeling:

Veel geld bespaart: Soms kun je 90% van de prestaties van de duurste AI halen voor slechts 1% van de kosten.
Sneller bent: Je hoeft niet te wachten op de zware AI voor simpele vragen.
Beter schaalbaar bent: Je kunt nieuwe AI's toevoegen zonder het hele systeem opnieuw te bouwen.

Samenvattend

RADAR is als een slimme restaurantmanager. Hij weet precies welke gast (vraag) wat wil, welke kok (AI-model) het beste past bij dat gerecht, en hoeveel tijd (rekenbudget) er nodig is. Zo krijgt elke gast een heerlijk maaltijd, maar betaalt het restaurant niet meer dan nodig is.

Het is een manier om de kracht van de nieuwste, duurste AI's te combineren met de snelheid en goedkoopheid van kleinere modellen, zodat we allemaal profiteren van de slimste antwoorden zonder de rekening te hoeven betalen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs", gepresenteerd op ICLR 2026, in het Nederlands.

Probleemstelling

Reasoning Large Language Models (RLMs) hebben indrukwekkende prestaties geleverd in complexe taken zoals wiskunde, wetenschap en coderen. Echter, het kiezen van de juiste RLM-configuratie voor praktische implementatie brengt een afweging met zich mee tussen prestaties en kosten op twee niveaus:

Modelgrootte: Grotere modellen zijn vaak beter, maar duurder.
Reasoning-budget: De hoeveelheid "denktokens" (chain-of-thought) die een model mag genereren. Een hoger budget leidt vaak tot betere antwoorden, maar verhoogt de latentie en kosten.

De uitdaging is dat niet elke query een groot model met een hoog reasoning-budget nodig heeft. Simpele vragen kunnen vaak correct worden beantwoord door kleinere modellen met een laag budget, terwijl complexe vragen juist het tegenovergestelde vereisen. Bestaande methoden kiezen vaak voor een statische "beste" configuratie of gebruiken cascades die herhaaldelijk query's moeten sturen, wat inefficiënt is. Er is behoefte aan een dynamisch systeem dat per query de optimale balans vindt tussen kosten en prestaties zonder de generatie onderbrekingen.

Methodologie: RADAR

RADAR (Reasoning–Ability and Difficulty-Aware Routing) is een lichtgewicht, interpreteerbaar en schaalbaar routingframework dat queries toewijst aan de meest geschikte {RLM, reasoning-budget}-configuratie. De kern van de methode bestaat uit drie componenten:

1. Discretisatie en Multi-Objectieve Optimalisatie (MOO)

In plaats van alleen te kiezen tussen verschillende modellen, discretiseert RADAR elk model in een reeks mogelijke reasoning-budgetten (bijv. 0, 256, 1k, ... tokens). Dit creëert een pool van configuraties $G$ .
Het routingprobleem wordt geformuleerd als een Multi-Objectieve Optimalisatie (MOO) probleem met twee doelen:

Maximaliseren van prestatie: De kans op een correct antwoord ( $p_q(g)$ ).
Minimaliseren van kosten: De geraamde kosten ( $c_q(g)$ ) gebaseerd op tokengebruik.

RADAR lost dit op door de configuratie te kiezen die op de Pareto-front ligt voor een specifieke gebruikersvoorkeur (gewogen door een parameter $w_1$ ). Ze gebruiken scalarisatie-technieken, specifiek:

Lineaire Scalarisatie: Een gewogen som van prestatie en kosten.
Chebyshev Scalarisatie: Minimaliseert de maximale afwijking van een ideaal referentiepunt. Dit is cruciaal omdat het in staat is om punten op de niet-convexe delen van de Pareto-front te vinden, wat lineaire methoden vaak missen.

2. Item Response Theory (IRT) voor Calibratie

Om de prestatiefunctie $p_q(g)$ te voorspellen, past RADAR een Item Response Theory (IRT) model toe, specifiek het Two-Parameter Logistic (2PL) model. Dit model, oorspronkelijk ontwikkeld voor psychometrie, schat twee latenten parameters:

Query-moeilijkheid ( $b_j$ ): Geschat via een leerbare vector die wordt vermenigvuldigd met de query-embedding. Dit zorgt voor generalisatie naar onbekende (OOD) queries.
Model-vaardigheid ( $\theta_i$ ): Een scalair getal dat de vaardigheid van een specifieke {model, budget}-configuratie weergeeft.

De kans op een correct antwoord wordt berekend als:
$p_{ij} = \sigma(a_j(\theta_i - b_j))$
Waarbij $\sigma$ de sigmoid-functie is en $a_j$ de discriminatieparameter van de query.

3. Adaptieve Testen voor Schaalbaarheid

Om een nieuw model of een nieuwe configuratie toe te voegen aan RADAR zonder het hele dataset opnieuw te evalueren, gebruikt het framework Computerized Adaptive Testing (CAT).

In plaats van een nieuw model op alle trainingsdata te testen, selecteert RADAR iteratief de meest informatieve queries (gebaseerd op Fisher-informatie) om de vaardigheid ( $\theta$ ) van het nieuwe model nauwkeurig te schatten.
Hierdoor kan RADAR nieuwe modellen snel ("plug-and-play") integreren met slechts een klein subset van queries (ongeveer 12% van de trainingsdata).

Belangrijkste Bijdragen

Nieuwe Formulering: Het formaliseren van adaptief redeneren als een MOO-probleem over gediscretiseerde model-budget configuraties, in plaats van alleen modelselectie.
IRT-gebaseerde Routing: Het aanpassen van IRT om interpreteerbare query-moeilijkheden en model-vaardigheden te leren, wat leidt tot lage latentie en goede generalisatie.
Adaptieve Integratie: Een methode om nieuwe RLM-configuraties snel te kalibreren via adaptieve testen, wat schaalbaarheid garandeert in een snel evoluerend ecosysteem van modellen.
Uitgebreide Validatie: Experimenten op 8 uitdagende benchmarks (o.a. MATH-500, GPQA, FRAMES) tonen superioriteit aan ten opzichte van state-of-the-art methoden.

Resultaten

RADAR werd getest op 8 benchmarks, waaronder wiskunde (MATH-500, AIME), wetenschap (GPQA), recht (LSAT) en lang-context QA (FRAMES).

Prestatie-Kosten Trade-off: RADAR overtreft bestaande methoden (zoals RouterBench en IRT-Router) op de Hypervolume-metric (die de oppervlakte onder de Pareto-kromme meet).
- Voorbeeld: Op de MATH-500 benchmark kan RADAR 90% van de prestaties van het duurste model (OpenAI o4-mini met hoog budget) bereiken voor slechts 1,31% van de kosten.
Generalisatie (OOD): RADAR toont sterke generalisatie naar Out-of-Distribution (OOD) queries, zelfs op lange context taken (FRAMES) waar het model voornamelijk op kortere queries is getraind.
Schaalbaarheid: Door het gebruik van adaptieve testen, verbetert RADAR zijn routingprestaties direct na het toevoegen van nieuwe modellen (zoals Qwen3-14B) met slechts een minimale evaluatie-overhead.
Interpretabiliteit: Het systeem leert betekenisvolle moeilijkheidsgraden voor queries en rangschikt modellen op vaardigheid, wat inzicht geeft in waarom een bepaalde route wordt gekozen.
Efficiëntie: De routing-overhead is verwaarloosbaar (~7 milliseconden per query), wat veel sneller is dan de tijd die het kleinste model nodig heeft om een antwoord te genereren.

Betekenis en Toekomstperspectief

RADAR biedt een fundamentele verschuiving in hoe we reasoning-modellen inzetten. In plaats van te vertrouwen op statische keuzes of dure cascades, biedt RADAR een principiële, interpreteerbare en dynamische aanpak om de kosten-efficiëntie van RLMs te maximaliseren.

De significance ligt in:

Kostenefficiëntie: Het maakt dure reasoning-modellen toegankelijker voor toepassingen waar budget een beperkende factor is.
Flexibiliteit: Het werkt in een "black-box" setting, wat betekent dat het direct toepasbaar is op zowel open-source als proprietary API-modellen zonder fine-tuning.
Toekomstige Uitbreiding: De auteurs zien potentie om RADAR uit te breiden naar multi-modale reasoning, het integreren van andere configuraties (zoals retrieval of tool-use), en het toepassen op batch-beperkingen.

Kortom, RADAR positioneert zich als een essentiële laag in de infrastructuur van toekomstige AI-systemen, die de brug slaat tussen de theoretische capaciteiten van grote modellen en de praktische eisen van kosten en latentie.