Top-Down Semantic Refinement for Image Captioning
Die Arbeit stellt Top-Down Semantic Refinement (TDSR) vor, einen effizienten, auf Monte-Carlo-Baumsuche basierenden Rahmen, der die Bildbeschreibung durch hierarchische, zielgerichtete Verfeinerung optimiert und so die Kohärenz und Detailgenauigkeit bestehender Vision-Language-Modelle erheblich verbessert, ohne deren Rechenkosten signifikant zu erhöhen.