PowerCLIP: Powerset Alignment for Contrastive Pre-Training
PowerCLIP is een nieuw contrastief voortrainingsframework dat middels efficiënte niet-lineaire aggregatoren de exponentiële complexiteit van powerset-uitlijning overwint om compositiese semantics tussen meerdere beeldregio's en tekst te optimaliseren, wat leidt tot superieure zero-shot prestaties.