Parallel Token Prediction for Language Models
Este artículo presenta la Predicción Paralela de Tokens (PTP), un marco general que acelera la decodificación de modelos de lenguaje al predecir múltiples tokens simultáneamente mediante la transformación de la aleatoriedad en variables de entrada deterministas, logrando una aceleración de 2.4x en comparación con los métodos tradicionales.