Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Het paper introduceert Granulon, een nieuw multimodaal groot taalmodel dat DINOv3 combineert met een adaptieve multi-granulariteitsarchitectuur om zowel pixel- als grootschalige semantische redenering te verenigen, wat resulteert in een aanzienlijke verbetering van de nauwkeurigheid en een vermindering van hallucinaties.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Granulon: De "Slimme Loupe" voor AI die Beelden Begrijpt

Stel je voor dat je een kunstwerk bekijkt. Je hebt twee manieren om er naar te kijken:

  1. Je kijkt er van ver naar op en ziet alleen het grote plaatje: "Oh, dat is een landschap met een huis." (Dit is wat de huidige AI-modellen vaak doen).
  2. Je pakt een loep en bekijkt de penseelstreken, de textuur van de muur en de kleur van het dak. (Dit is wat de nieuwe AI-modellen kunnen, maar dan missen ze vaak het grote plaatje).

Het probleem met de huidige slimme beeld-AI's (zoals CLIP en DINOv3) is dat ze meestal maar één van deze twee goed doen. Ze zijn óf goed in het begrijpen van het grote verhaal, óf goed in het zien van de kleine details, maar zelden beide tegelijk.

Granulon is een nieuwe uitvinding die dit probleem oplost. Het is als een slimme, aanpasbare bril die je op de ogen van een kunstmatige intelligentie zet.

Hier is hoe het werkt, in gewone taal:

1. De Twee Kampioenen (en hun zwakke punt)

In de wereld van AI-beeldherkenning zijn er twee grote kampioenen:

  • CLIP: Deze is als een reisgids. Hij ziet heel snel dat er een "strand" is en dat er "zon" schijnt. Hij begrijpt het verhaal van de foto, maar hij ziet niet dat de zandkorrels rond zijn of dat er een gebroken schelp ligt.
  • DINOv3: Deze is als een forensisch rechercheur. Hij ziet elke kras op de auto, elke vlek op het shirt en elke textuur. Hij is extreem goed in details, maar hij kan soms vergeten dat hij eigenlijk naar een auto kijkt en niet naar een verzameling krasjes.

Tot nu toe moesten AI's kiezen: óf je bent een gids, óf je bent een rechercheur. Granulon wil beide zijn.

2. De Magische Bril: Granulon

Granulon is een nieuw systeem dat de "rechercheur" (DINOv3) gebruikt, maar hem een slimme assistent geeft die bepaalt hoe hij moet kijken.

Deze assistent bestaat uit twee delen:

De "Leesmeester" (De Controller)

Stel je voor dat je een vraag stelt aan de AI: "Wat is er te zien in de foto?"
De "Leesmeester" luistert naar je vraag en denkt: "Ah, hij wil het grote plaatje weten."
Dan zegt hij tegen de AI: "Oké, kijk van ver! Focus op het landschap."

Maar stel je vraagt: "Wat is de kleur van de vlek op de hond?"
Dan denkt de Leesmeester: "Ah, dit is een detailvraag!"
En hij zegt: "Oké, pak de loep! Kijk heel dichtbij naar de vacht."

De AI past zijn kijkwijze dus dynamisch aan op basis van wat jij vraagt.

De "Samenvatter" (AdaTA)

Nu de AI weet hoe hij moet kijken, moet hij de informatie ook slim verwerken.
Stel je voor dat je een foto hebt van 1 miljoen pixels. Dat is te veel informatie om in één keer te verwerken.

  • Als je het grote plaatje wilt, vult de "Samenvatter" de pixels samen tot een paar grote blokken (bijv. "de lucht", "de grond").
  • Als je details wilt, houdt hij de kleine stukjes apart.

Deze module zorgt ervoor dat de AI niet verdrinkt in informatie, maar precies de juiste stukjes informatie selecteert die bij je vraag horen.

3. Waarom is dit zo geweldig?

Vroeger maakten AI's vaak "hallucinaties". Dat betekent dat ze dingen verzinnen die er niet zijn.

  • Voorbeeld: Een AI kijkt naar een foto van een hond en zegt: "De hond eet een bot." Terwijl er geen bot te zien is. De AI "droomt" het erbij omdat hij het grote plaatje (hond + eten) associeert, maar de details niet goed checkt.

Met Granulon gebeurt dit veel minder. Omdat de AI kan schakelen tussen "groot plaatje" en "dichtbij kijken", blijft hij eerlijk.

  • Als hij vraagt naar details, kijkt hij echt naar de details.
  • Als hij vraagt naar het verhaal, kijkt hij naar het verhaal.

Het Resultaat in het Kort

  • Meer juistheid: De AI maakt ongeveer 30% minder fouten.
  • Minder dromen: De AI "hallucineert" (verzonnen details) ongeveer 20% minder vaak.
  • Één model: Het doet dit allemaal in één keer, zonder dat je twee verschillende AI's hoeft te laten werken.

Conclusie:
Granulon is als het geven van een meesterchef-mes aan een kok die tot nu toe alleen een boterhammesje had. Hij kan nu zowel grof hakken (voor het grote gerecht) als fijn snijden (voor de garnering), afhankelijk van wat er op het bord moet komen. Hierdoor wordt de maaltijd (het antwoord van de AI) veel lekkerder en betrouwbaarder.