Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks
Este artículo propone un Canal de Lógica Explícito que, en paralelo a los modelos de lenguaje multimodal (MLLM) existentes, utiliza razonamiento lógico y evidencia visual para validar, seleccionar y mejorar el rendimiento de estos modelos en tareas de cero disparos sin necesidad de anotaciones de ground-truth, aumentando así su explicabilidad y confiabilidad.