Pretraining Large Language Models with NVFP4
Dit paper introduceert een stabiele NVFP4-pretraining-methode voor grote taalmodellen die, na het trainen van een 12 miljard parameter tellend model op 10 biljoen tokens, prestaties bereikt die vergelijkbaar zijn met een FP8-basislijn.