Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder
Der Paper stellt Omni-C vor, einen einzigen dichten Transformer-Encoder, der durch unimodales kontrastives Vor-Training auf großen unalignierten Daten heterogene Modalitäten wie Bilder, Audio und Text effizient in gemeinsamen Repräsentationen vereint und dabei den Bedarf an Mixture-of-Expert-Architekturen, gepaarter Überwachung oder Routing-Overhead eliminiert.