Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information
Il paper propone un sistema di rilevamento delle allucinazioni visive strutturali in immagini di personaggi cartonesi generati da modelli Text-to-Image, che utilizza un modello Vision-Language potenziato dall'apprendimento in contesto con informazioni sulla posa (PA-ICVL) per ottenere miglioramenti significativi rispetto ai metodi basati solo su immagini RGB.