AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic
Il paper presenta AraModernBERT, un modello encoder-only adattato all'arico che dimostra come l'inizializzazione tramite transtokenizzazione e la modellazione nativa di contesti lunghi fino a 8.192 token migliorino significativamente le prestazioni nel modellamento linguistico e in diverse attività di comprensione del linguaggio naturale.