MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation
Il paper introduce MrBERT, una famiglia di encoder multilingue basata sull'architettura ModernBERT e pre-addestrata su 35 lingue, che combina prestazioni di punta in domini specifici e linguaggi locali con l'efficienza operativa grazie all'apprendimento di rappresentazioni Matryoshka (MRL).