Learning Adaptive LLM Decoding
Este trabajo propone el uso de adaptadores de decodificación ligeros entrenados con aprendizaje por refuerzo para seleccionar dinámicamente estrategias de muestreo adaptativas a nivel de secuencia y token, logrando mejoras significativas en la precisión de tareas matemáticas y de codificación bajo restricciones de recursos computacionales fijos.