Diffusion Language Models Are Natively Length-Aware
Este paper propone un mecanismo de recorte dinámico del contexto basado en la representación latente de la entrada para hacer que los Modelos de Lenguaje de Difusión sean conscientes de la longitud, logrando ahorros computacionales significativos sin degradar el rendimiento en diversas tareas.