AraModernBERT: Transtokenized Initialization and Long-Context Encoder Modeling for Arabic
Este trabalho apresenta o AraModernBERT, uma adaptação da arquitetura ModernBERT para o árabe que demonstra a importância da inicialização transtokenizada e da modelagem nativa de contexto longo (até 8.192 tokens) para obter desempenho superior em tarefas de compreensão e modelagem linguística.