Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment
本論文は、画像とテキストの埋め込みを意味情報とモダリティ情報に制約付きで分解し、分布サンプリングによってモダリティギャップを埋めることで、真のセマンティクスを整合させる新しいクロスモーダルアライメント手法「CDDS」を提案し、既存の最先端手法を大幅に上回る性能を達成したことを報告しています。