Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs
Il paper introduce Grasp Any Region (GAR), un modello che supera i limiti delle precedenti MLLM regionali integrando il contesto globale e il replay delle caratteristiche per ottenere una comprensione visiva precisa, interattiva e capace di ragionamento compositivo su qualsiasi regione, come dimostrato dalle sue prestazioni superiori su benchmark specifici e sulla capacità di generalizzazione ai video.