Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM
Der Paper stellt Granulon vor, ein neuartiges multimodales Large Language Model, das auf dem DINOv3-Visual-Encoder basiert und durch adaptive Granularitätssteuerung sowie tokenaggregierende Module eine einheitliche Bildanalyse von Pixelebene bis zu groben semantischen Konzepten ermöglicht, wodurch die Genauigkeit um etwa 30 % gesteigert und Halluzinationen um 20 % reduziert werden.