RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

Il paper presenta RADAR, un framework di routing leggero e interpretabile che ottimizza il compromesso tra prestazioni e costi nei modelli di ragionamento assegnando dinamicamente le query in base alla loro difficoltà e alle capacità specifiche delle coppie modello-budget.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang

Pubblicato 2026-03-12
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un'armamentario di chef (i modelli di intelligenza artificiale) pronti a cucinare per te. Alcuni sono chef stellati (modelli giganti e costosi) che possono preparare piatti complessi, ma richiedono molto tempo e costano una fortuna. Altri sono chef veloci ed economici (modelli piccoli) che fanno un ottimo lavoro con le ricette semplici, ma potrebbero andare in tilt se chiedi loro di preparare un banchetto di nozze.

Il problema è: come fai a sapere quale chef assumere per ogni singolo piatto senza sprecare soldi o tempo?

Se chiami sempre lo chef stellato per tutto, spenderai troppo. Se chiami sempre lo chef economico, rischi che il piatto venga bruciato o male.

La carta che hai condiviso introduce RADAR, un sistema intelligente che risolve proprio questo problema. Ecco come funziona, spiegato in modo semplice:

1. Il Concetto: Non è solo "quale chef", ma "quanto tempo"

RADAR non sceglie solo chi cucina, ma anche quanto tempo deve cucinare.

  • Per una domanda semplice ("Qual è la capitale della Francia?"), RADAR dice: "Chiama lo chef economico e digli di rispondere in 5 secondi".
  • Per una domanda difficile ("Risolvi questo teorema di fisica quantistica"), RADAR dice: "Chiama lo chef stellato e digli di prendersi tutto il tempo necessario per pensare".

2. La Magia: Il "Test Psicologico" per le Domande

Per prendere queste decisioni, RADAR usa una tecnica presa in prestito dalla psicologia scolastica (chiamata Item Response Theory).
Immagina che ogni domanda sia un esercizio di matematica e ogni modello sia uno studente.

  • RADAR impara a misurare la difficoltà di ogni domanda (quanto è "duro" l'esercizio).
  • RADAR impara a misurare l'abilità di ogni modello (quanto è "bravo" lo studente).

Invece di far rispondere a tutti gli studenti a tutti gli esercizi (cosa che costerebbe una fortuna), RADAR fa un test adattivo: prova il nuovo modello su pochi esercizi chiave per capire subito il suo livello, proprio come un insegnante che capisce se uno studente è pronto per la scuola superiore dopo avergli fatto solo 3 domande mirate.

3. Il Bilancio Perfetto (L'Equilibrio)

RADAR è come un manager di un ristorante che deve bilanciare due cose:

  1. La qualità del piatto (Performance).
  2. Il costo del servizio (Soldi e tempo).

RADAR non cerca il "piatto perfetto" a tutti i costi, né il "piatto più economico" a tutti i costi. Cerca il punto di equilibrio perfetto (chiamato Pareto front nella scienza).

  • Se vuoi risparmiare, RADAR ti dà un piatto buono al 90% ma che costa solo il 10% del prezzo massimo.
  • Se vuoi il massimo, RADAR usa il modello più potente, ma solo quando è strettamente necessario.

4. Perché è speciale?

  • È veloce: Decide in 7 millisecondi (più veloce di un battito di ciglia) quale modello usare, prima ancora che il modello inizi a pensare.
  • È intelligente: Funziona anche con domande che non ha mai visto prima (come se uno chef che ha cucinato per italiani sapesse improvvisare per un cliente giapponese).
  • È economico: Nel test su problemi di matematica, RADAR è riuscito a ottenere il 90% della qualità del modello più costoso del mondo, spendendo solo l'1,3% del suo prezzo. È come ottenere un'auto di lusso con il prezzo di una bicicletta!

In sintesi

RADAR è il "selettore intelligente" che ti dice: "Ehi, per questa domanda non serve il supercomputer da un milione di dollari. Usa quel piccolo modello veloce, risparmi soldi e ottieni lo stesso risultato!".

È come avere un personal shopper per l'intelligenza artificiale che ti assicura di non spendere mai un euro in più di quanto necessario, garantendo però che il risultato sia sempre eccellente.