Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM
Il paper presenta Granulon, un nuovo modello MLLM basato su DINOv3 che integra un controller di granularità testuale e un modulo di aggregazione adattiva per unificare il ragionamento visivo a più livelli di dettaglio, migliorando significativamente l'accuratezza e riducendo le allucinazioni.