RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

O RADAR é um framework de roteamento leve e interpretável que otimiza o desempenho e o custo de modelos de raciocínio ao direcionar consultas com base em sua dificuldade e na capacidade dos modelos em diferentes orçamentos de raciocínio.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma equipe de especialistas para resolver problemas: desde um estagiário super rápido e barato até um professor doutor, extremamente inteligente, mas que cobra muito caro e demora para responder.

O desafio é: como saber qual especialista usar para cada pergunta específica?

Se você usar o "professor" para tudo, vai gastar uma fortuna. Se usar o "estagiário" para tudo, ele vai errar nas perguntas difíceis. A maioria dos sistemas atuais tenta adivinhar ou usa uma regra fixa, o que não é eficiente.

É aqui que entra o RADAR, um novo sistema inteligente descrito neste artigo. Vamos explicar como ele funciona usando uma analogia simples.

🧠 O Problema: O "Dilema do Orçamento"

Pense em um modelo de linguagem (como o ChatGPT) que pode "pensar" antes de responder.

  • Pensar pouco: É rápido e barato, mas pode errar em questões complexas.
  • Pensar muito: É lento e caro, mas resolve quase tudo.

O RADAR percebeu algo interessante: nem toda pergunta precisa de um "pensamento profundo". Algumas perguntas simples podem ser resolvidas por um modelo pequeno e rápido. Outras, muito difíceis, exigem o modelo grande e lento.

🚦 A Solução: O RADAR como um "Gerente de Tráfego Inteligente"

O RADAR funciona como um gerente de tráfego em uma cidade cheia de carros (as perguntas) e estradas de diferentes qualidades (os modelos de IA com diferentes orçamentos de tempo de pensamento).

1. O Mapa Mental (Teoria de Resposta ao Item)

O RADAR usa uma técnica antiga de psicologia e educação chamada Teoria de Resposta ao Item (usada para criar provas escolares).

  • Para as perguntas: O RADAR aprende o "nível de dificuldade" de cada pergunta. É como se ele soubesse que uma pergunta de matemática básica é "fácil" e uma de física quântica é "difícil".
  • Para os modelos: O RADAR aprende a "habilidade" de cada modelo. Ele sabe que o modelo pequeno é bom em coisas fáceis, mas o modelo grande é o único que consegue resolver as coisas difíceis.

A mágica: Em vez de ser uma caixa preta, o RADAR entende por que um modelo acertou ou errou. Ele cria um mapa onde cada pergunta tem um "nível de dificuldade" e cada configuração de modelo tem um "nível de habilidade".

2. O Tráfego em Tempo Real (Roteamento)

Quando uma pergunta chega:

  1. O RADAR olha o mapa e diz: "Essa pergunta é nível 3 de dificuldade".
  2. Ele olha os modelos disponíveis e diz: "O modelo X com orçamento baixo tem habilidade nível 3. O modelo Y com orçamento alto tem habilidade nível 10".
  3. A Decisão: Se a pergunta é nível 3, o RADAR manda para o modelo X (rápido e barato). Se a pergunta for nível 10, ele manda para o modelo Y (caro, mas necessário).

Isso acontece em milissegundos, antes mesmo do modelo começar a responder. É como um semáforo que muda de cor instantaneamente para garantir que o carro certo pegue a estrada certa.

3. Ajuste Fino (Otimização de Custo vs. Qualidade)

O RADAR permite que você defina o seu "gosto".

  • Se você quer economizar ao máximo, ele usa modelos pequenos para a maioria das perguntas.
  • Se você quer qualidade máxima e não se importa com o custo, ele usa os modelos grandes.
  • O RADAR encontra o ponto perfeito (chamado de "Frente de Pareto") onde você obtém o máximo de acertos pelo menor preço possível.

🚀 Por que isso é revolucionário?

  1. Economia Real: Em testes, o RADAR conseguiu atingir 90% da performance do modelo mais caro e inteligente, gastando apenas 1,3% do custo! É como conseguir um jantar de 5 estrelas pagando o preço de um lanche, porque você sabe exatamente quando pedir o prato especial.
  2. Aprende com o Tempo: Se um novo modelo de IA for lançado amanhã, o RADAR não precisa ser reprogramado do zero. Ele faz um "teste rápido" (como um teste adaptativo de escola) com algumas perguntas, descobre a habilidade desse novo modelo e já começa a usá-lo no tráfego.
  3. Funciona no Imprevisto: Mesmo com perguntas que ele nunca viu antes (fora do treinamento), o RADAR consegue estimar a dificuldade e escolher o modelo certo, funcionando muito melhor que os métodos atuais.

📝 Resumo em uma frase

O RADAR é um gerente de tráfego inteligente que olha para cada pergunta, mede sua dificuldade, e a envia para o modelo de IA com o "orçamento de pensamento" perfeito, garantindo que você não pague caro por coisas simples nem use um modelo fraco para coisas difíceis.

É como ter um assistente que sabe exatamente quando chamar um táxi comum e quando chamar um helicóptero, economizando seu dinheiro e seu tempo sem perder a eficiência.