Ranking Reasoning LLMs under Test-Time Scaling

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um juiz em uma grande competição de culinária, mas em vez de cozinheiros, você está avaliando Inteligências Artificiais (IAs) que resolvem problemas de matemática complexos.

O problema é que essas IAs não são máquinas perfeitas e previsíveis. Se você pedir para elas resolverem o mesmo problema duas vezes, elas podem dar respostas diferentes: uma vez acertam, outra vez erram, ou dão uma resposta meio correta. É como se o cozinheiro estivesse um pouco "tonto" ou criativo demais; às vezes faz o prato perfeito, às vezes queima o arroz.

Para saber quem é realmente o melhor, os pesquisadores decidiram: "Vamos pedir para cada IA cozinhar o mesmo prato 80 vezes e ver quantas vezes ela acerta." Isso é o que chamam de "Escalamento no Tempo de Teste" (Test-time Scaling).

Mas aqui surge o dilema: Como você cria uma lista de classificação (ranking) justa quando os resultados variam tanto?

Se você olhar apenas para a primeira tentativa de cada IA, pode ser sorte. Se olhar para as 80 tentativas, é mais justo, mas custa muito tempo e dinheiro (computação). E se você tiver pouco tempo (poucas tentativas), qual método de classificação é o mais confiável?

É aqui que entra o papel da equipe da Universidade Case Western Reserve. Eles criaram uma "caixa de ferramentas" chamada Scorio para testar dezenas de métodos diferentes de fazer essa classificação.

As Analogias do Papel

Aqui está o que eles descobriram, traduzido para a vida real:

1. O "Padrão Ouro" (A Verdade Absoluta)

Imagine que você tem tempo infinito. Você pede para cada IA cozinhar o prato 80 vezes. A média de acertos dessas 80 tentativas é o seu Padrão Ouro. É a verdade mais próxima possível de quem é o melhor cozinheiro.

Descoberta: Quando você tem muitas tentativas (80), quase todos os métodos de classificação diferentes concordam entre si. Eles todos chegam à mesma lista de vencedores. É como se, com tempo suficiente, todos os juízes concordassem que o Chef A é melhor que o Chef B.

2. O Dilema do "Orçamento Apertado" (Poucas Tentativas)

Agora, imagine que você só tem tempo para ver uma única tentativa de cada IA (N=1). É como pedir para o cozinheiro fazer o prato uma vez só e decidir o vencedor. O risco de erro é enorme!

O Problema: Alguns métodos de classificação são muito instáveis aqui. Eles podem colocar um cozinheiro ruim em primeiro lugar só porque ele teve sorte naquela única tentativa.
A Solução Mágica (O "Pré-Teste"): Os pesquisadores descobriram um truque inteligente. Antes de pedir as 80 tentativas aleatórias, eles pedem para a IA fazer o prato uma vez de forma super focada e lenta (chamado de "decodificação gananciosa" ou greedy decoding).
- A Analogia: É como se o chef fizesse um esboço rápido do prato antes de começar a cozinhar de verdade. Se esse esboço for bom, você usa essa informação para "ajudar" a classificação das tentativas aleatórias.
- O Resultado: Usar esse "esboço" como uma dica inicial (um prior) torna a classificação muito mais estável quando você tem poucas tentativas. É como ter um mapa do tesouro antes de começar a caça.

3. Quando a Dica Pode Prejudicar

Mas cuidado! Essa dica só funciona se o "esboço" (modo focado) e a "tentativa aleatória" (modo criativo) forem parecidos.

O Cenário Ruim: Em problemas muito difíceis (como o HMMT'25, que é como um campeonato de xadrez de nível olímpico), o modo focado da IA pode travar e não conseguir resolver nada, enquanto o modo aleatório, por sorte, acerta.
O Perigo: Se você usar o "esboço" (que falhou) para guiar a classificação das tentativas aleatórias (que acertaram), você vai punir a IA injustamente. É como se o juiz dissesse: "Você errou o esboço, então vou ignorar que você acertou o prato final".
Conclusão: Em tarefas difíceis, é melhor confiar apenas nas tentativas aleatórias e não usar a dica do "esboço".

Resumo das Descobertas Principais

Se você tem tempo (80 tentativas): Use o método mais simples (média de acertos). Quase todos os métodos complexos dão o mesmo resultado. Não se preocupe em ser sofisticado.
Se você tem pouco tempo (1 tentativa):
- Se o problema for fácil ou médio: Use a "dica" do modo focado (BayesR0@N). Isso reduz o erro e estabiliza a classificação.
- Se o problema for muito difícil: Não use a dica. Confie apenas nas tentativas aleatórias, pois o modo focado pode enganar você.
A Ferramenta Scorio: Eles liberaram um código aberto (uma biblioteca) que permite que qualquer pessoa teste esses métodos. É como dar a todos os juízes do mundo uma régua padronizada para medir IAs.

A Lição Final

Avaliar IAs não é apenas ver quem acerta mais. É entender como elas acertam e quanta confiança podemos ter nessa avaliação.

Para tarefas fáceis: Uma pequena ajuda inicial (o "prior") é ótima para economizar tempo.
Para tarefas difíceis: A simplicidade e a honestidade dos dados brutos (muitas tentativas) valem mais do que qualquer atalho.

O trabalho deles nos ensina que, na corrida para entender a inteligência artificial, a forma como contamos os pontos é tão importante quanto os pontos em si.

Each language version is independently generated for its own context, not a direct translation.

Título: Classificação de LLMs de Raciocínio sob Escalonamento de Tempo de Teste (Test-Time Scaling)

1. Problema e Motivação

O artigo aborda um desafio crítico na avaliação de Grandes Modelos de Linguagem (LLMs) focados em raciocínio (como matemática e programação): como classificar modelos de forma confiável quando se utiliza escalonamento de tempo de teste (test-time scaling).

Contexto: O escalonamento de tempo de teste envolve gerar múltiplas saídas (amostras) para o mesmo prompt e agregá-las para melhorar a precisão. Isso transforma a avaliação em um problema de amostragem repetida.
O Desafio: Embora métricas como Pass@k sejam comuns, não há consenso sobre qual método estatístico é o melhor para ranquear (ordenar) modelos nesse regime. Diferentes métodos de classificação (baseados em votação, teoria de resposta ao item, grafos, etc.) podem produzir ordens de modelos drasticamente diferentes, especialmente quando o orçamento de computação (número de tentativas, $N$ ) é baixo.
A Lacuna: A literatura existente foca muito em métricas de precisão absoluta, mas pouco em como estabilizar e validar a ordem dos modelos quando os dados são estocásticos e limitados.

2. Metodologia

Os autores formalizam o problema e propõem uma estrutura unificada para análise:

Formalização do Dado: O problema é modelado através de um tensor de resposta $R \in \{0, 1\}^{L \times M \times N}$ $R \in {0, 1}^{L \times M \times N}$ , onde:
- $L$ : Número de modelos.
- $M$ : Número de questões no benchmark.
- $N$ : Número de tentativas independentes (amostras) por par modelo-questão.
Padrão Ouro (Gold Standard): Como não existe uma "verdade absoluta" para classificação, os autores definem o BayesU@80 (estimador da média posterior bayesiana com prior uniforme, calculado com $N=80$ tentativas) como o padrão de referência. Isso é equivalente à precisão média (avg@80) e serve como base para medir a concordância de outros métodos.
A Biblioteca Scorio: Os autores desenvolveram e lançaram o Scorio, uma biblioteca de código aberto que implementa uma vasta gama de métodos de classificação, incluindo:
- Métodos Ponto a Ponto: Precisão média, Pass@k, Bayes@N.
- Modelos de Comparação Pareada: Bradley-Terry, Elo, TrueSkill, Davidson.
- Regras de Votação: Borda, Copeland, Schulze, Nanson, Minimax.
- Métodos Baseados em Grafos e Espectrais: PageRank, Rank Centrality, HodgeRank, $\alpha$ -Rank.
- Teoria de Resposta ao Item (IRT): Modelos Rasch (1PL, 2PL, 3PL) e suas variantes Bayesianas (MAP, EAP, MML).
Protocolo de Avaliação:
- Estabilidade de Baixo Orçamento: Avalia-se a concordância (usando a correlação de Kendall $\tau_b$ ) entre classificações feitas com $N=1$ (uma única tentativa) e o padrão ouro ( $N=80$ ).
- Convergência: Analisa-se quão rápido os métodos convergem para a ordem completa à medida que $N$ aumenta.
- Priors Empíricos: Investigação do uso de saídas de decoding guloso (greedy) como prior empírico para reduzir a variância em baixos orçamentos.

3. Experimentos

Dados: 20 modelos de raciocínio (incluindo GPT-OSS, Qwen, DeepSeek, Phi, etc.) avaliados em 4 benchmarks de matemática estilo Olimpíada: AIME'24, AIME'25, HMMT'25 e BrUMO'25.
Configuração: Até $N=80$ tentativas independentes por par modelo-questão, totalizando 192.000 execuções de inferência.
Análise de Sensibilidade: Testes com bootstrapping de pools de modelos (tamanhos 5, 10, 15) para verificar a robustez das conclusões.

4. Resultados Principais

Convergência em Alto Orçamento ( $N=80$ ):
- A maioria dos métodos de classificação razoáveis concorda fortemente com o padrão ouro (BayesU@80).
- A concordância média (Kendall's $\tau_b$ ) varia entre 0.93 e 0.95.
- Entre 19 e 34 métodos recuperam exatamente a mesma ordenação do padrão ouro em diferentes benchmarks.
- As maiores discrepâncias vêm de regras de votação específicas (como variantes de Minimax e Nanson) e métodos ponderados por dificuldade.
Regime de Baixo Orçamento ( $N=1$ ):
- A estabilidade varia significativamente entre os métodos.
- Melhor Método: O método BayesR0@N (Bayes com prior empírico de decoding guloso) demonstra o melhor desempenho em benchmarks mais fáceis (AIME, BrUMO), alcançando $\tau_b \approx 0.78 - 0.86$ .
- Trade-off Viés-Variância: O uso do prior guloso reduz a variância em 16-52% em $N=1$ , mas pode introduzir viés sistemático se a ordem induzida pelo greedy divergir da ordem estocástica (comum em benchmarks muito difíceis como HMMT'25).
- Auto-consistência: Métodos como Rasch MML com pontuação conservadora (LCB - Lower Credible Bound) mostram alta auto-consistência (estabilidade interna), mas nem sempre concordam perfeitamente com o padrão ouro baseado em precisão média.
Impacto da Dificuldade do Benchmark:
- Em tarefas mais difíceis (HMMT'25), a alinhação entre greedy e amostragem estocástica diminui, tornando o uso de priores gulosos menos eficaz ou até prejudicial.
- Em tarefas mais fáceis, o prior guloso é uma ferramenta poderosa para estabilizar rankings com poucas amostras.
Classificação Categórica:
- A extensão para resultados categóricos (não apenas certo/errado, mas considerando formato, verificador externo, etc.) mostra um trade-off: esquemas ricos em sinais (como "apenas verificador") são muito auto-consistentes, mas tendem a divergir do padrão ouro baseado em correção factual.

5. Contribuições Chave

Formalização Teórica: Definição rigorosa do problema de classificação de benchmarks densos sob escalonamento de tempo de teste, unificando famílias de métodos através de transformações do tensor de resposta.
Protocolo de Avaliação: Introdução de métricas de estabilidade de baixo orçamento e convergência como critérios para selecionar métodos de classificação, em vez de apenas precisão absoluta.
Scorio: Lançamento de uma biblioteca de código aberto que implementa e padroniza dezenas de métodos de classificação, permitindo reprodutibilidade e comparação justa.
Insights Práticos:
- Para orçamentos altos, a precisão média (ou BayesU) é um padrão robusto e simples.
- Para orçamentos baixos, o uso de priores empíricos (como greedy) é eficaz, mas requer verificação prévia da alinhação entre greedy e amostragem estocástica para evitar viés.

6. Significado e Conclusão

O trabalho demonstra que, embora muitos métodos de classificação converjam para a mesma ordem quando há dados suficientes, a escolha do método é crítica quando o custo computacional é limitado.

Para Pesquisadores: O estudo fornece um guia para escolher o método de classificação adequado dependendo do orçamento disponível e da dificuldade da tarefa.
Para a Comunidade: A liberação do Scorio democratiza o acesso a métodos estatísticos avançados de classificação, permitindo que a comunidade avalie LLMs de forma mais robusta e menos dependente de métricas simples como Pass@k.
Implicação Futura: O trabalho sugere que a avaliação de LLMs deve evoluir de uma visão de "pontuação única" para uma análise de distribuição e estabilidade, reconhecendo que a ordem dos modelos pode ser uma variável estatística sensível ao método de agregação e ao orçamento de inferência.

Em resumo, o artigo estabelece as bases estatísticas para uma avaliação mais confiável e reprodutível de modelos de raciocínio em um cenário onde a computação de tempo de teste é um recurso estratégico.