Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models
Il paper propone un metodo senza addestramento chiamato "Dynamic Multimodal Activation Steering" che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala intervenendo dinamicamente su specifici sottogruppi di attention heads durante l'inferenza, selezionando vettori di steering contestualmente rilevanti basati sulla similarità semantica.