UGround: Towards Unified Visual Grounding with Unrolled Transformers

Each language version is independently generated for its own context, not a direct translation.

🎯 UGround: De Slimme Zoektocht in een Foto

Stel je voor dat je een fotograaf bent die een foto maakt van een drukke markt. Je vraagt aan je assistent: "Waar is de man met de rode hoed?" of "Toon me de appels die rijp zijn."

Tot nu toe waren de slimme computers (AI) die dit doen, een beetje als een telefoonspel (het spel waar je een boodschap fluistert van persoon tot persoon).

De computer leest je vraag.
De boodschap gaat door 30 of 40 lagen van een "denk-machine" (een Transformer).
Aan het einde, bij de laatste persoon, wordt de boodschap vertaald naar een vage hint: "Zoek daar."
Deze hint gaat naar een andere computer (de "schilder", zoals SAM) die de foto moet inkleuren.

Het probleem: Bij zo'n lang telefoonspel wordt de boodschap steeds meer verdraaid. De laatste persoon weet niet precies waar de man met de rode hoed zit, en de schilder maakt een rommelige vlek. Ook weet de schilder niet waar hij moet kijken, hij krijgt alleen een tekstje, geen coördinaten.

🚀 De Oplossing: UGround

De onderzoekers hebben UGround bedacht. Dit is een nieuwe manier om naar foto's te kijken die twee grote problemen oplost:

1. De "Telefoon" wordt een "Directe Lijn"

In plaats van te wachten tot de boodschap helemaal door de 40 lagen is gegaan, laat UGround de assistent tussendoor bellen.

De Analogie: Stel je voor dat je in een fabriek werkt waar een product door 40 machines gaat. Normaal gesproken kijkt de inspecteur pas aan het einde of het product goed is. Als er ergens halverwege een fout zit, is het te laat.
UGround doet dit anders: De inspecteur (de AI) mag willekeurig kiezen bij welke machine hij het product controleert. Soms kijkt hij bij machine 10, soms bij machine 30. Hij kiest de plek waar het product het duidelijkst zichtbaar is.
Het resultaat: De boodschap is niet verdraaid door de hele keten. De "inspecteur" geeft de "schilder" direct de beste informatie, zonder dat er fouten zijn opgeteld. Dit noemen ze "Stochastic Skip Connection" (een willekeurige kortsluiting).

2. Geen "Waar?", maar "Kijk Hier!" (Het Masker)

Oude systemen gaven de schilder alleen een tekstje als hint: "Zoek naar een rode hoed". De schilder moest dan raden waar dat zat.

UGround geeft een tekening: In plaats van alleen een tekstje, maakt de AI een warme kaart (een hittekaart). Dit is een vage tekening die laat zien: "Hier is het warm (dus hier zit de rode hoed)".
De Analogie: In plaats van te zeggen "Zoek de sleutel in de kamer", geef je de schilder een magische lantaarn die al een gloeiend puntje op de sleutel laat zien. De schilder hoeft niet meer te gissen; hij volgt gewoon het licht.
Dit noemen ze "Mask as Prompt" (Het masker als hint). Omdat de AI zelf weet waar de objecten zitten, kan hij de "schilder" precies vertellen waar hij moet tekenen.

🌟 Waarom is dit zo speciaal?

UGround is als een Zwitsers zakmes voor beeldherkenning. Tot nu toe hadden we aparte tools voor verschillende taken:

Eentje voor simpele vragen ("Waar is de hond?").
Eentje voor moeilijke redeneringen ("Welke hond is verdrietig?").
Eentje voor meerdere objecten tegelijk.
Eentje om te zeggen: "Die hond is er niet, zoek niet verder."

UGround doet het allemaal in één systeem.

Redeneren: Het begrijpt complexe zinnen.
Veel objecten: Het kan tien vogels tegelijk markeren.
Nee zeggen: Als je vraagt naar een "paarse olifant" in een foto van een strand, zegt UGround: "Die is er niet" in plaats van dat het een vage vlek tekent.

🏆 De Resultaten

In tests (waarbij de AI foto's moet inkleuren op basis van tekst) doet UGround het beter dan alle vorige recordhouders.

Bij moeilijke redeneer-taken verbeterde het de nauwkeurigheid met wel 9%.
Bij het vinden van meerdere objecten was het 12% beter.

Samenvattend in één zin:

UGround is een slimme assistent die niet wacht tot het einde van een lang gesprek om te kijken of hij iets begrijpt, maar tussendoor de beste plek kiest om te kijken, en dan een lichtpuntje op de foto zet zodat de schilder precies weet waar hij moet tekenen.

Het maakt het zoeken in foto's sneller, nauwkeuriger en slimmer, of je nu vraagt om een simpele hond of een complexe redenering over een verzonnen object.

Each language version is independently generated for its own context, not a direct translation.

Titel: UGround: Towards Unified Visual Grounding with Unrolled Transformers

Samenvatting:
Dit paper introduceert UGround, een unificerend paradigma voor visuele grounding (het koppelen van tekstuele referenties aan specifieke gebieden in een afbeelding). In tegenstelling tot bestaande methoden die zich beperken tot de laatste verborgen laag van een transformer, gebruikt UGround een dynamische selectie van tussenliggende lagen binnen "ontrollen" (unrolled) transformers. De kerninnovatie is het gebruik van een "mask-as-prompt" strategie, waarbij een similariteitskaart dient als expliciete ruimtelijke aanwijzing voor een visueel model (zoals SAM), in plaats van alleen een tekstuele token.

1. Het Probleem

Bestaande visuele grounding-systemen (vaak gebaseerd op Large Multimodal Models of LMMs zoals LLaVA gekoppeld aan SAM) lijden onder twee fundamentele beperkingen:

Afhankelijkheid van de vaste laatste laag: Traditionele pipelines gebruiken uitsluitend de embedding van de <SEG>-token uit de laatste verborgen laag van de transformer-stack. Omdat transformers sequentieel werken, worden fouten die in eerdere lagen ontstaan, stap voor stap versterkt zonder tussentijdse correctie (vergelijkbaar met het "telefoonspel"). Dit leidt tot cumulatieve fouten.
Gebrek aan expliciete ruimtelijke cues: De <SEG>-token is een tekstuele placeholder. Wanneer deze wordt gebruikt als prompt voor een visueel model, wordt de tekstuele embedding impliciet naar de visuele ruimte geprojecteerd zonder expliciete ruimtelijke informatie (zoals coördinaten of een heatmap). Dit maakt het voor het visuele model moeilijker om precies te weten waar het moet kijken.

Daarnaast zijn bestaande modellen vaak gespecialiseerd in één type taak (bijv. alleen expliciete beschrijvingen, alleen single-target, of alleen positieve queries) en kunnen ze niet binnen één raamwerk omgaan met de variatie in taak-attributen zoals redenering, multi-target queries, of het afwijzen van valse premises (objecten die niet in de afbeelding staan).

2. Methodologie: UGround

UGround lost deze problemen op door de transformer-lagen te "ontrollen" en dynamisch de beste laag te selecteren voor interactie met het visuele model. De kernarchitectuur bestaat uit Policy-Prompted Masking (PPM), die twee componenten omvat:

A. Stochastic Skip Connection (SSC)

Concept: In plaats van de embedding van de <SEG>-token vast te houden op de laatste laag, wordt deze token beschouwd als een agent die door de lagen van de transformer kan "glijden".
Implementatie: SSC gebruikt Reinforcement Learning (RL) (specifiek het REINFORCE-algoritme) om stochastisch een laag $\ell^*$ te selecteren uit de reeks van $L$ lagen.
Mechanisme: De geselecteerde laag maakt een directe "skip-connection" met het visuele model (SAM). Dit omzeilt de daaropvolgende lagen, waardoor cumulatieve fouten worden geminimaliseerd.
Dropout-achtig effect: Tijdens het trainen worden er meerdere forward-passes uitgevoerd waarbij elke keer een andere laag wordt geselecteerd. Dit fungeert als een vorm van Monte Carlo Dropout, wat de robuustheid verhoogt en over-reliance op één traject voorkomt.

B. Mask as Prompt (MasP)

Concept: In plaats van de <SEG>-token zelf als prompt te gebruiken, genereert UGround een similariteitskaart (similarity map) tussen de <SEG>-embedding en de image tokens in de geselecteerde laag.
Werking: Deze similariteitskaart wordt gebruikt als een "soft logit mask" (een heatmap) om SAM te prikkelen.
Voordeel: De similariteitskaart biedt expliciete ruimtelijke cues (activeringsgebieden) in plaats van alleen semantische informatie.
Supervisie: Om de model te dwingen om de juiste ruimtelijke gebieden te leren, wordt er een cross-entropy en Dice loss toegepast op de similariteitskaart ten opzichte van de ground-truth mask (verzachting met een Gaussische kernel). Dit stuurt de model expliciet aan waar het moet "kijken".

Trainingsdoel

De totale loss functie combineert:

Tekstgeneratie loss ( $L_{txt}$ ).
Segmentatiemasker loss ( $L_{mask}$ ).
Similariteitskaart loss ( $L_M$ ) om de ruimtelijke alignering te verbeteren.
Policy loss ( $L_{policy}$ ) via REINFORCE om de laagselectie te optimaliseren op basis van de kwaliteit van de gegenereerde similariteitskaart.

3. Belangrijkste Bijdragen

Unificatie van Visuele Grounding: UGround is het eerste framework dat visuele grounding unifyt vanuit een "attribuut-perspectief". Het kan binnen één systeem omgaan met:
- Expliciete expressies (Referring Expression Segmentation) en impliciete redenering (Reasoning Segmentation).
- Single-target en multi-target scenario's.
- Positieve queries en het afwijzen van valse premises (empty targets/false premises).
Unrolled Transformers & Dynamic Layer Selection: Het paper toont aan dat tussenliggende lagen vaak betere, minder ruisachtige semantische representaties bevatten dan de laatste laag. Door deze dynamisch te selecteren via een skip-connection, wordt de "telefoonspel"-problematiek opgelost.
Explicit Spatial Cues via Similarity Maps: Het introduceren van de similariteitskaart als prompt (in plaats van alleen een token) en het expliciet superviseren daarvan, leidt tot een significant betere ruimtelijke alignering.

4. Resultaten

UGround werd getest op diverse benchmarks en presteerde state-of-the-art (SOTA) op bijna alle taken:

ReasonSeg (Redenering): UGround-7B verbeterde de SOTA (RSVP-GPT) met +9.0% cIoU op de testset. UGround-13B verbeterde READ-13B met +2.7% cIoU.
RefCOCO(+/g) (Referentie): UGround-7B overtrof GLaMM-7B met +1.2% cIoU op de RefCOCOg testset, wat de generalisatiekracht aantoont.
gRefCOCO (Multi-target & Valse Premises): UGround-7B verbeterde GSVA-7B (ft) met +12.1% N-acc (nauwkeurigheid bij het herkennen van lege targets/valse premises) en +2.27% cIoU. Dit bevestigt de capaciteit om objecten die niet aanwezig zijn, correct af te wijzen.
Ablatie Studies: De studies bevestigen dat zowel de dynamische laagselectie (SSC) als het gebruik van de similariteitskaart als prompt (MasP) essentieel zijn voor de prestaties.

5. Betekenis en Impact

Technische Doorbraak: Het paper daagt het dogma uit dat alleen de laatste laag van een transformer relevant is voor downstream taken. Het toont aan dat "unrolling" en het selecteren van optimale tussenlagen via RL een krachtige strategie is.
Veiligheid en Robuustheid: Door het vermogen om valse premises te herkennen (bijv. "segment de blauwe auto" in een afbeelding zonder auto), maakt UGround visuele grounding systemen veiliger en betrouwbaarder voor real-world toepassingen.
Unificatie: Het biedt een schaalbaar raamwerk dat de kloof tussen verschillende specialisaties (redeneren, tellen, afwijzen) overbrugt, wat leidt tot meer geavanceerde en flexibele AI-systemen voor beeldbegrip.

De code en modellen zijn open source beschikbaar gesteld, wat verdere research en toepassing in de gemeenschap faciliteert.