AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

AdaptVision è un paradigma efficiente per i modelli visione-linguaggio che, ispirandosi alla visione attiva umana e utilizzando un framework di apprendimento per rinforzo con ottimizzazione della politica disaccoppiata (DTPO), determina autonomamente il numero minimo di token visivi necessari per ogni campione attraverso un approccio a grana grossa-fine che combina token compressi e l'acquisizione selettiva di regioni chiave.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL