Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs
Ce papier présente Grasp Any Region (GAR), un modèle d'IA multimodale qui améliore la compréhension visuelle des régions en intégrant des contextes globaux et en modélisant les interactions entre plusieurs zones, permettant ainsi un raisonnement compositionnel avancé et surpassant les modèles existants sur des benchmarks spécialisés.