UGround: Towards Unified Visual Grounding with Unrolled Transformers

UGround introduceert een unificerend visueel grondingsparadigma dat ongestructureerde transformers gebruikt om dynamisch tussenlagen te selecteren via 'Policy-Prompted Masking', waardoor cumulatieve fouten worden verminderd en expliciete ruimtelijke aanwijzingen worden geboden voor een breed scala aan taakvariaties.

Rui Qian, Xin Yin, Chuanhang Deng, Zhiyuan Peng, Jian Xiong, Wei Zhai, Dejing Dou

Gepubliceerd 2026-02-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🎯 UGround: De Slimme Zoektocht in een Foto

Stel je voor dat je een fotograaf bent die een foto maakt van een drukke markt. Je vraagt aan je assistent: "Waar is de man met de rode hoed?" of "Toon me de appels die rijp zijn."

Tot nu toe waren de slimme computers (AI) die dit doen, een beetje als een telefoonspel (het spel waar je een boodschap fluistert van persoon tot persoon).

  1. De computer leest je vraag.
  2. De boodschap gaat door 30 of 40 lagen van een "denk-machine" (een Transformer).
  3. Aan het einde, bij de laatste persoon, wordt de boodschap vertaald naar een vage hint: "Zoek daar."
  4. Deze hint gaat naar een andere computer (de "schilder", zoals SAM) die de foto moet inkleuren.

Het probleem: Bij zo'n lang telefoonspel wordt de boodschap steeds meer verdraaid. De laatste persoon weet niet precies waar de man met de rode hoed zit, en de schilder maakt een rommelige vlek. Ook weet de schilder niet waar hij moet kijken, hij krijgt alleen een tekstje, geen coördinaten.

🚀 De Oplossing: UGround

De onderzoekers hebben UGround bedacht. Dit is een nieuwe manier om naar foto's te kijken die twee grote problemen oplost:

1. De "Telefoon" wordt een "Directe Lijn"

In plaats van te wachten tot de boodschap helemaal door de 40 lagen is gegaan, laat UGround de assistent tussendoor bellen.

  • De Analogie: Stel je voor dat je in een fabriek werkt waar een product door 40 machines gaat. Normaal gesproken kijkt de inspecteur pas aan het einde of het product goed is. Als er ergens halverwege een fout zit, is het te laat.
  • UGround doet dit anders: De inspecteur (de AI) mag willekeurig kiezen bij welke machine hij het product controleert. Soms kijkt hij bij machine 10, soms bij machine 30. Hij kiest de plek waar het product het duidelijkst zichtbaar is.
  • Het resultaat: De boodschap is niet verdraaid door de hele keten. De "inspecteur" geeft de "schilder" direct de beste informatie, zonder dat er fouten zijn opgeteld. Dit noemen ze "Stochastic Skip Connection" (een willekeurige kortsluiting).

2. Geen "Waar?", maar "Kijk Hier!" (Het Masker)

Oude systemen gaven de schilder alleen een tekstje als hint: "Zoek naar een rode hoed". De schilder moest dan raden waar dat zat.

  • UGround geeft een tekening: In plaats van alleen een tekstje, maakt de AI een warme kaart (een hittekaart). Dit is een vage tekening die laat zien: "Hier is het warm (dus hier zit de rode hoed)".
  • De Analogie: In plaats van te zeggen "Zoek de sleutel in de kamer", geef je de schilder een magische lantaarn die al een gloeiend puntje op de sleutel laat zien. De schilder hoeft niet meer te gissen; hij volgt gewoon het licht.
  • Dit noemen ze "Mask as Prompt" (Het masker als hint). Omdat de AI zelf weet waar de objecten zitten, kan hij de "schilder" precies vertellen waar hij moet tekenen.

🌟 Waarom is dit zo speciaal?

UGround is als een Zwitsers zakmes voor beeldherkenning. Tot nu toe hadden we aparte tools voor verschillende taken:

  • Eentje voor simpele vragen ("Waar is de hond?").
  • Eentje voor moeilijke redeneringen ("Welke hond is verdrietig?").
  • Eentje voor meerdere objecten tegelijk.
  • Eentje om te zeggen: "Die hond is er niet, zoek niet verder."

UGround doet het allemaal in één systeem.

  • Redeneren: Het begrijpt complexe zinnen.
  • Veel objecten: Het kan tien vogels tegelijk markeren.
  • Nee zeggen: Als je vraagt naar een "paarse olifant" in een foto van een strand, zegt UGround: "Die is er niet" in plaats van dat het een vage vlek tekent.

🏆 De Resultaten

In tests (waarbij de AI foto's moet inkleuren op basis van tekst) doet UGround het beter dan alle vorige recordhouders.

  • Bij moeilijke redeneer-taken verbeterde het de nauwkeurigheid met wel 9%.
  • Bij het vinden van meerdere objecten was het 12% beter.

Samenvattend in één zin:

UGround is een slimme assistent die niet wacht tot het einde van een lang gesprek om te kijken of hij iets begrijpt, maar tussendoor de beste plek kiest om te kijken, en dan een lichtpuntje op de foto zet zodat de schilder precies weet waar hij moet tekenen.

Het maakt het zoeken in foto's sneller, nauwkeuriger en slimmer, of je nu vraagt om een simpele hond of een complexe redenering over een verzonnen object.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →