Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder
Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.