On the Value of Tokeniser Pretraining in Physics Foundation Models
O artigo demonstra que o pré-treinamento de tokenizadores com um objetivo de autoencoder, especialmente quando alinhado ao domínio físico específico, melhora significativamente a eficiência e a precisão dos modelos de base para física, reduzindo o erro de VRMSE em 64% em comparação com o treinamento a partir do zero.