Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness
Este artículo presenta un módulo plug-and-play eficiente que mejora el razonamiento de los modelos de lenguaje visuales sobre objetos raros sin necesidad de ajuste fino, mediante el enriquecimiento de tokens visuales y la generación de pistas contextuales a partir de conocimientos previos y descripciones de texto.