Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information
Die vorgestellte Arbeit stellt ein System vor, das Vision-Language-Modelle durch eine posebewusste In-Context-Learning-Methode (PA-ICVL) befähigt, visuelle Halluzinationen in Cartoon-Bildern deutlich genauer zu erkennen als herkömmliche Ansätze, die nur auf RGB-Bilder angewiesen sind.