Imagine que você está ensinando um aluno muito inteligente, mas um pouco disperso, a resolver um problema complexo. Você dá a ele um comando (uma pergunta) e pede que ele escreva todo o seu processo de pensamento passo a passo.

O problema é que, conforme o aluno escreve mais e mais, ele começa a se perder. Ele pode se distrair com detalhes irrelevantes, repetir a si mesmo ou tomar um caminho errado que leva a um beco sem saída. No mundo da IA, isso é chamado de "deriva" (drifting) ou "instabilidade".

O artigo apresenta uma nova ferramenta chamada ANTS (Adaptive Nucleus Truncation Sampling) para ajudar a IA a manter o foco, especialmente quando ela precisa escrever respostas muito longas.

Veja como funciona, dividido em conceitos simples:

1. O Problema: O "Filtro Fixo" vs. O "Filtro Inteligente"

Imagine que a IA está diante de uma encruzilhada com milhares de caminhos possíveis (palavras) que ela poderia seguir a seguir.

Métodos Antigos: As ferramentas tradicionais agem como um porteiro fixo. Elas dizem: "Não importa qual seja a situação, permitiremos que apenas os 50% superiores de caminhos passem".
- A Falha: Às vezes, o aluno precisa ser muito focado (um problema de matemática), e um portão largo permite a entrada de muito ruído. Outras vezes, o aluno precisa ser criativo (escrevendo uma história), e um portão estreito corta boas ideias. Um portão fixo não consegue mudar de ideia com base na situação.
A Solução ANTS: O ANTS age como um guia adaptável e inteligente. Em vez de um portão fixo, ele observa a situação atual e pergunta: "O quanto o aluno está confuso agora?"
- Se o aluno estiver muito seguro da resposta (baixa confusão), o guia estreita o portão para mantê-lo focado.
- Se o aluno estiver incerto (alta confusão), o guia alarga o portão para permitir que ele explore mais opções.

2. O Ingrediente Secreto: "Logits" e "Entropia"

Para tomar essas decisões, o ANTS usa duas ferramentas especiais:

Logits (A Pontuação Bruta): A maioria das ferramentas de IA olha para a "probabilidade" final de uma palavra (como uma chance percentual). Mas o artigo argumenta que isso é como olhar para uma foto que foi filtrada e redimensionada. O ANTS olha para as pontuações brutas (logits) antes de qualquer filtragem acontecer. Isso é como olhar para os ingredientes crus antes de serem cozidos; oferece uma imagem mais clara do que a IA realmente "pensa" ser a melhor palavra.
Entropia (O Medidor de Confusão): O ANTS mede a "entropia", que é basicamente uma medida de quão confusa ou incerta a IA está naquele momento específico. Ele usa esse medidor para decidir o quão largo deve abrir o portão.

3. A Rede de Segurança: O "Braço de Contingência"

Esta é a parte mais crítica da invenção.
Imagine que o guia inteligente (ANTS) está tentando ser prestativo demais. Ele começa a cortar caminhos de forma tão agressiva que o aluno fica travado ou começa a alucinar bobagens.

A Contingência: O ANTS possui um botão de emergência especial (chamado de braço de contingência ou fallback arm). Se o guia perceber que cortar caminhos está piorando as coisas, ele pode instantaneamente pressionar o botão para parar de cortar caminhos inteiramente. Ele retorna ao método original, não filtrado.
Por que isso importa: Nos tempos antigos, se um filtro fosse muito rigoroso, a IA simplesmente continuava piorando. Com o ANTS, o sistema pode "aprender" quando parar de ser rigoroso e voltar a ser livre, mantendo o processo de treinamento estável.

4. Os Resultados: Fica Melhor Quanto Mais Você Conversa

Os pesquisadores testaram isso em um grande modelo de IA com diferentes "orçamentos" (limites de quantas palavras a IA pode gerar).

Orçamentos Curtos (8K palavras): Os resultados foram mistos. Para algumas tarefas, como escrever código, a IA na verdade teve um desempenho pior com o ANTS. Parece que, quando você tem muito pouco espaço para trabalhar, ser exigente demais sobre quais palavras permitir pode prejudicar o resultado final.
Orçamentos Longos (16K e 32K palavras): É aqui que o ANTS brilha. À medida que o comprimento permitido aumentou, o ANTS melhorou significativamente.
- Seguir Instruções: Quando solicitado a seguir regras complexas por um longo período, o ANTS evitou que a IA esquecesse as regras ou divagasse.
- Matemática e Lógica: Em problemas matemáticos difíceis, o ANTS ajudou a IA a evitar "alucinar" passos errados, levando a pontuações melhores.
- A Reviravolta do "Codeforces": Curiosamente, para tarefas de codificação, o ANTS foi ruim em comprimentos curtos, mas incrível em comprimentos longos. Isso sugere que, para codificação complexa, você precisa da liberdade de explorar muitas ideias antes de se estabelecer na certa, mas apenas se tiver espaço suficiente para fazer isso.

A Grande Conclusão

O artigo argumenta que não devemos tratar o método de "amostragem" (como a IA escolhe a próxima palavra) apenas como uma configuração simples que você liga ou desliga. Em vez disso, deve ser um controlador dinâmico que muda seu comportamento com base em:

O quão longa a resposta precisa ser.
O quão confusa a IA está naquele momento.
Se a estratégia atual está funcionando ou se ela precisa apertar o "botão de emergência" para reiniciar.

Em resumo, o ANTS é um sistema que ensina a IA a saber quando ser focada, quando ser criativa e quando parar de tentar ser "inteligente" e apenas deixar o fluxo natural acontecer, garantindo que ela não se perca no meio de uma conversa longa.

Resumo Técnico: Truncamento de Núcleo Adaptativo para Raciocínio de Longo Formato

Declaração do Problema

No raciocínio de modelos de linguagem de longo formato, o orçamento de geração é frequentemente grande o suficiente para suportar raciocínio de múltiplos passos, autorrefinamento e uso de ferramentas. Nestes regimes, o amostrador de decodificação não é meramente um detalhe de pós-processamento, mas um mecanismo de controle crítico que determina os caminhos de raciocínio alcançáveis e a estabilidade das trajetórias de treinamento. Os métodos de truncamento existentes — como top- $p$ , min- $p$ e amostragem top- $n_\sigma$ fixa — melhoram em relação à amostragem irrestrita, mas sofrem de limitações significativas:

Limiares Fixos: Métodos como top- $p$ e min- $p$ dependem de limiares de probabilidade fixos que não conseguem se adaptar às mudanças na entropia, dificuldade da tarefa, estágio de treinamento ou orçamento de geração.
Distorções no Espaço de Probabilidade: Métodos baseados em probabilidade operam após o softmax e o escalonamento de temperatura, herdando distorções da normalização de probabilidade. Consequentemente, a mesma geometria de logit subjacente pode gerar conjuntos de candidatos diferentes conforme a temperatura muda.
Falta de Adaptabilidade: Um único parâmetro de truncamento fixo (por exemplo, um $n$ fixo em top- $n_\sigma$ ) não pode servir simultaneamente a contextos decisivos que exigem poda aguda e contextos ambíguos que exigem suporte amplo. Além disso, em fases de Aprendizado por Reforço (RL) instáveis, o truncamento agressivo pode levar à instabilidade do treinamento (ultrapassagem de entropia, divergência KL e normas de gradiente).

Metodologia: Amostragem de Truncamento de Núcleo Adaptativo (ANTS)

Os autores propõem a Amostragem de Truncamento de Núcleo Adaptativo (ANTS), que estende a amostragem top- $n_\sigma$ de um heurística de decodificação fixa para um mecanismo de controle de rollout adaptável e consciente do orçamento. O ANTS opera em três estágios:

1. Estimativa de Suporte no Espaço de Logits

Ao contrário dos métodos baseados em probabilidade, o ANTS seleciona o conjunto de candidatos no espaço de logits pré-temperatura. Ele define uma vizinhança $N_t(n)$ ao redor do logit máximo $\ell_{t, \text{max}}$ baseada no desvio padrão por vocabulário $\sigma(\ell_t)$ :
$N_t(n) = \{ v \in V \mid \ell_{t,v} > \max_{u \in V} \ell_{t,u} - n \cdot \sigma(\ell_t) \}$
Esta seleção é invariante ao escalonamento positivo de logits (escalonamento de temperatura), garantindo que o conjunto de candidatos permaneça consistente independentemente das mudanças de temperatura.

2. Limiar Condicionado pela Entropia

A largura da vizinhança de truncamento, $n_t$ , não é fixa, mas adapta-se com base na incerteza local do modelo. Ela é calculada como:
$n_t = n_0 + \gamma \cdot H(p^{(0)}_t)$
onde $H(p^{(0)}_t)$ é a entropia da distribuição de temperatura unitária. Contextos de alta entropia (ambíguos) retêm mais alternativas (maior $n_t$ ), enquanto contextos de baixa entropia (decisivos) são podados de forma mais aguda.

3. Controlador de Thompson-Sampling Online

Para determinar a força de truncamento ideal $\gamma$ dinamicamente, o ANTS emprega um controlador de bandit Thompson-sampling sobre um conjunto finito de braços:

Braços Finitos: Um conjunto de $K$ braços com valores de $\gamma$ em escala logarítmica ( $\gamma_k = 10^{\eta_k}$ ).
Braço de Contingência (Fallback): Um $K+1$ -ésimo braço crítico com $\gamma_{K+1} = +\infty$ , que efetivamente desabilita o truncamento ( $N_t = V$ ), recuperando o amostrador base.
Sinal de Recompensa: O controlador utiliza uma recompensa intrínseca baseada na entropia da distribuição induzida por cada braço. Braços que preservam suporte suficiente (entropia acima da média) recebem atualizações posteriores maiores.
Mecanismo de Estabilidade: O braço de contingência atua como uma "saída de segurança". Se o truncamento se tornar inseguro durante os rollouts de RL (causando deriva em métricas como divergência KL ou normas de gradiente), o controlador pode aprender a selecionar o braço de contingência para estabilizar o treinamento.

Principais Contribuições

Amostrador Adaptativo no Espaço de Logits: Formulação do ANTS como um amostrador invariante à temperatura que separa a seleção do conjunto de candidatos da estocasticidade dentro do conjunto.
Controle Baseado em Entropia: Introdução de um controlador Thompson condicionado pela entropia que adapta a força de truncamento online e inclui um braço de contingência sem truncamento para evitar instabilidade de treinamento.
Avaliação de Escalonamento de Orçamento de Geração: Avaliação abrangente em orçamentos de geração de 8K, 16K e 32K, demonstrando que os ganhos de desempenho geralmente escalam com o orçamento.
Truncamento Consciente do Orçamento: Caracterização de um modo de falha específico na geração de código com orçamento curto, motivando a necessidade de políticas de truncamento aprendidas conjuntamente com o orçamento de geração e o tipo de tarefa.

Resultados Experimentais

O método foi avaliado em um modelo de Mistura de Especialistas (MoE) esparso com 33B total / 4B ativos.

Escalonamento com o Orçamento: O desempenho médio sobre benchmarks baseados em porcentagem melhorou em +1.9 pontos em 8K, +3.8 em 16K e +5.2 em 32K.
Seguimento de Instruções (IFBench): Mostrou os ganhos mais fortes, melhorando em +10.5 (Loose) e +10.8 (Strict) pontos em 32K. O ANTS evitou a deriva para continuações verbosas ou tangenciais que violam restrições.
Raciocínio Matemático (AIME 2025): Melhorou em +7.0 pontos em 32K, com ganhos quase dobrando de 8K para 32K.
Geração de Código (Codeforces): Revelou uma interação crítica de orçamento. Em 8K, o ANTS ficou atrás do baseline em -59 ELO, apesar de gerar mais tokens de solução. No entanto, em 16K e 32K, reverteu essa lacuna, alcançando ganhos de +230 e +212 ELO, respectivamente. Isso sugere que o truncamento é prejudicial em regimes de código estritamente limitados, mas benéfico quando o espaço de programa viável é maior.
QA Científico (GPQA) & Conhecimento (MMLU Pro): Mostrou paridade próxima ou ganhos modestos, indicando que o truncamento no espaço de logit oferece menos alavancagem para tarefas que exigem seleção de resposta única precisa em comparação com a geração de longo formato.
Alocação de Tokens: O ANTS alterou os padrões de uso de tokens. Em orçamentos moderados, aumentou os tokens de "pensamento" (deliberação). Em 32K, reduziu os tokens de pensamento mantendo alta precisão, sugerindo que ele suprime continuações desnecessárias em vez de simplesmente gerar cadeias mais longas.

Significância e Alegações

O artigo argumenta que o design do amostrador deve ser tratado não apenas como um hiperparâmetro de decodificação fixo, mas como um componente integral do escalonamento de tempo de inferência e controle de rollout.

Estabilidade: A inclusão do braço de contingência é central para o sucesso do método, permitindo que o sistema se recupere de estados de truncamento instáveis que métodos fixos não conseguem escapar.
Sensibilidade ao Contexto: Os resultados demonstram que a estratégia de amostragem ideal é dependente do contexto, variando conforme o orçamento de geração, o tipo de tarefa (ex: código vs. matemática) e o estado de treinamento.
Eficiência: O ANTS frequentemente atinge faixas de desempenho mais cedo do que o baseline, melhorando a eficiência computacional efetiva em configurações de RL ao reduzir a frequência de rollouts de baixa qualidade ou instáveis.

Os autores concluem que, embora o ANTS não domine universalmente todos os amostradores existentes em todas as tarefas, ele exibe um padrão de escalonamento de orçamento de geração robusto, particularmente para raciocínio de longo formato e seguimento de instruções, onde suprimir caudas ruidosas sem remover caminhos de raciocínio úteis é crítico.

Adaptive Nucleus Truncation for Long-Form Reasoning