Learning Adaptive LLM Decoding
O artigo propõe o uso de adaptadores de decodificação leves treinados por aprendizado por reforço para selecionar dinamicamente estratégias de amostragem em modelos de linguagem grandes, melhorando significativamente a precisão em tarefas de matemática e codificação sob orçamentos de computação fixos sem a necessidade de ajuste fino do modelo principal.