Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment
Ce papier propose CDDS, un nouvel algorithme d'alignement cross-modal qui utilise un décodage contraint et un échantillonnage de distribution pour isoler les véritables sémantiques des informations modales, surpassant ainsi les méthodes de l'état de l'art de 6,6 % à 14,2 %.