PowerCLIP: Powerset Alignment for Contrastive Pre-Training
PowerCLIP est un nouveau cadre de pré-entraînement contrastif qui améliore la compréhension compositionnelle en alignant les ensembles de régions d'images sur les phrases textuelles grâce à des agrégateurs non linéaires efficaces, surpassant ainsi les méthodes actuelles dans les tâches de classification et de recherche sans apprentissage préalable.