ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping
Deze paper introduceert ES-dLLM, een trainingsvrij raamwerk dat de inferentie van diffusion-taalmodellen versnelt door tokens in vroege lagen te overslaan op basis van variatie in tussentijdse representaties, wat resulteert in een tot 16,8 keer hogere snelheid zonder kwaliteitsverlies.