WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval
Das Paper stellt WISER vor, ein training-freies Framework für das Zero-Shot Composed Image Retrieval, das durch eine adaptive Fusion von Text- und Bild-basierten Suchpfaden sowie einen verifizierenden Verfeinerungsprozess die Stärken beider Ansätze kombiniert und damit den aktuellen Stand der Technik deutlich übertrifft.