WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval
O WISER é um framework de recuperação de imagens composta zero-shot sem treinamento que supera os métodos existentes ao unificar as abordagens Texto-para-Imagem e Imagem-para-Imagem em um pipeline de "busca mais ampla, pensamento mais profundo e fusão adaptativa", utilizando verificação de confiança e auto-reflexão estruturada para refinar dinamicamente os resultados.