AutoV: Loss-Oriented Ranking for Visual Prompt Retrieval in LVLMs
Le papier présente AutoV, un cadre léger qui améliore les modèles vision-langage en remplaçant l'ingénierie manuelle des prompts visuels par une récupération adaptative guidée par un classement basé sur la perte d'un modèle pré-entraîné, éliminant ainsi le besoin d'annotations manuelles tout en augmentant significativement les performances sur diverses tâches.