MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling
Il paper presenta MaBERT, un nuovo modello ibrido che combina l'efficienza lineare di Mamba con la capacità di modellazione globale dei Transformer, introducendo tecniche di mascheramento specifiche per gestire in modo sicuro e veloce contesti estesi senza contaminazione dovuta al padding.