Parallel Token Prediction for Language Models
Dit paper introduceert Parallel Token Prediction (PTP), een raamwerk dat de snelheid van autoregressieve taalmodellen aanzienlijk verhoogt door meerdere tokens in één doorloop te voorspellen via het verschuiven van de bron van willekeur naar invoervariabelen, wat resulteert in een 2,4-voudige versnelling.