UGround: Towards Unified Visual Grounding with Unrolled Transformers

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas sturmen Freund, der Bilder beschreiben kann. Wenn du ihn fragst: „Wo ist der Hund?", schaut er sich das Bild an und versucht, dir die genaue Stelle zu zeigen. Das nennt man im Fachjargon „Visuelles Grounding".

Bisher gab es ein Problem mit diesem Freund: Er war wie ein Telefon-Spiel (das „Whisper-Game"). Eine Nachricht wird von Person zu Person weitergegeben. Am Ende ist die Nachricht oft verzerrt, weil jeder kleine Fehler des Vorgängers auf den nächsten aufaddiert wird.

In der Welt der KI bedeutete das: Die Modelle schauten sich ein Bild an, verarbeiteten es durch 40 Schichten (wie 40 Personen im Telefon-Spiel) und gaben erst am allerletzten Ende (Schicht 40) das Ergebnis heraus. Wenn sich in Schicht 1 oder 2 schon ein kleiner Fehler eingeschlichen hatte, war er bis Schicht 40 riesig geworden. Außerdem sagten sie nur: „Hier ist der Hund", ohne genau zu zeigen, wo genau (ohne Koordinaten).

UGround ist wie ein neuer, schlauerer Freund, der das Telefon-Spiel „cheatet" (betrügt), um es besser zu machen. Hier ist die Erklärung, wie er das tut, mit ein paar einfachen Analogien:

1. Der „Unrollte" Transformer: Ein Aufzug mit vielen Etagen

Stell dir das KI-Modell als einen riesigen Wolkenkratzer mit 40 Etagen vor.

Die alten Modelle: Der Besucher (die Frage „Wo ist der Hund?") musste den ganzen Weg bis zur 40. Etage nehmen. Erst dort wurde die Antwort gegeben. Wenn auf Etage 5 etwas schiefging, war das bis zur 40. Etage ein riesiges Problem.
UGrounds Idee: Unser neuer Freund ist nicht stur. Er sagt: „Warte mal, vielleicht ist die Antwort schon auf Etage 15 oder 28 klarer!" Er öffnet den Aufzug auf verschiedenen Etagen, schaut sich dort um und entscheidet: „Heute nehme ich die 15. Etage, morgen die 28."

Das nennt man dynamische Schichtenauswahl. Er nutzt einen kleinen Zufalls-Algorithmus (wie ein Würfelwurf), um zu entscheiden, auf welcher Etage er den Blick auf das Bild wirft. Das ist wie ein Dropout-Mechanismus: Er probiert verschiedene Wege aus, um sicherzustellen, dass er nie auf einen einzigen, fehleranfälligen Weg angewiesen ist.

2. „Maske als Hinweis" statt „Text als Hinweis"

Früher sagten die Modelle nur: „Ich suche den Hund" und gaben einen Text-Code (<SEG>) an ein anderes Programm (SAM) weiter. Das war wie: „Hey, such mal den Hund!" – aber ohne zu sagen, wo. Das andere Programm musste raten.

UGround macht es anders. Er sagt: „Schau mal hier!" und zeigt mit einem Fingerzeig (einer unscharfen Karte/Heatmap) genau auf den Bereich, wo der Hund sein könnte.

Die Analogie: Stell dir vor, du suchst einen Schlüssel.
- Alt: Jemand ruft dir zu: „Der Schlüssel ist irgendwo im Haus!" (Text).
- UGround: Jemand hält dir eine Karte hoch, auf der ein roter Kreis um den Schlüssel liegt (Maske/Heatmap).
- Das macht es für das Programm, das den Schlüssel findet (SAM), viel einfacher und präziser.

3. Der „Polizei-Check" (Reinforcement Learning)

Wie weiß UGround, welche Etage die beste ist? Er hat einen kleinen Trainer an Bord (eine Art KI-Polizei).

Wenn UGround eine Etage wählt und die Karte (Heatmap) stimmt gut mit dem echten Hund überein, gibt der Trainer einen Belohnungspunkt.
Wenn die Etage schlecht war und die Karte nur Unsinn zeigt, gibt es keine Punkte.
So lernt UGround schnell, welche Etage für welche Frage am besten funktioniert. Er „trickst" das Telefon-Spiel, indem er sich die Hinweise (die Karten) schon auf den unteren Etagen holt, statt bis oben warten zu müssen.

Warum ist das so cool?

UGround ist wie ein Schweizer Taschenmesser für Bilderkennung. Bisher gab es verschiedene Werkzeuge für verschiedene Aufgaben:

Eines für einfache Fragen („Wo ist der Hund?").
Eines für knifflige Fragen („Wo ist das Tier, das wie ein Hund aussieht, aber eigentlich ein Fuchs ist?").
Eines für Fragen, bei denen das Objekt gar nicht da ist („Wo ist der Elefant?" – wenn kein Elefant da ist).

UGround kann alles in einem System. Er kann:

Einfache Objekte finden.
Komplexe Rätsel lösen (Reasoning).
Mehrere Objekte gleichzeitig finden.
Und sogar sagen: „Hey, den Elefanten gibt es hier gar nicht!" (und dabei nicht versuchen, etwas zu finden, das nicht existiert).

Zusammenfassung

UGround ist ein neues KI-System, das nicht stur bis zum Ende eines langen Prozesses wartet, sondern intelligent zwischen den Schritten entscheidet, wo die beste Information liegt. Es zeigt dem Computer nicht nur Text, sondern eine visuelle Karte, wo er hinschauen soll. Dadurch ist es genauer, schneller bei komplexen Aufgaben und kann sogar Fehler in der Frage erkennen, indem es sagt: „Das ist hier nicht zu finden."

Es ist der Unterschied zwischen jemandem, der dir nur sagt „Such mal im Haus", und jemandem, der dir eine Karte mit einem roten Kreis gibt, während er dir gleichzeitig erklärt, warum er genau dort sucht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Das Ziel des Visual Grounding (visuelle Verankerung) ist es, sprachliche Referenzen (z. B. „der rote Ball") mit entsprechenden Regionen in einem Bild zu verknüpfen. Bisherige Ansätze, insbesondere solche, die auf Large Multimodal Models (LMMs) wie LLaVA basieren, weisen zwei wesentliche Einschränkungen auf:

Abhängigkeit von der letzten versteckten Schicht: Herkömmliche Methoden nutzen ausschließlich die Embeddings der letzten Schicht des Transformer-Stacks als Prompt für das nachgelagerte Segmentierungsmodell (z. B. SAM). Dies ähnelt dem „Telefonspiel": Fehler akkumulieren sich durch die sequenzielle Propagation durch alle Schichten, ohne dass Zwischenkorrekturen stattfinden.
Mangelnde räumliche Hinweise: Der verwendete <SEG>-Token ist ein textueller Platzhalter. Er projiziert Text-Embeddings implizit in den visuellen Raum, bietet aber keine expliziten räumlichen Hinweise (wie Koordinaten oder Aktivierungskarten), was die Genauigkeit der Segmentierung beeinträchtigt.

Zudem gibt es keine einheitliche Architektur, die verschiedene Aufgabenarten (von expliziten Beschreibungen bis hin zu implizitem Schlussfolgern, von Einzel- zu Mehrziel-Anfragen und die Ablehnung falscher Prämissen) in einem einzigen Framework vereint.

2. Methodik: UGround und Policy-Prompted Masking (PPM)

Die Autoren stellen UGround vor, ein einheitliches Paradigma, das auf „Unrolled Transformers" (entrollten Transformern) basiert. Das Kernstück ist die Policy-Prompted Masking (PPM)-Strategie, die zwei Hauptkomponenten umfasst:

A. Stochastic Skip Connection (SSC)

Anstatt fest an der letzten Schicht zu bleiben, erlaubt SSC dem <SEG>-Token, dynamisch eine beliebige Zwischenschicht des unrollierten Transformers auszuwählen.

Reinforcement Learning (RL): Die Auswahl der Schicht wird als RL-Aufgabe formuliert. Ein Agent wählt eine Schicht $l^*$ basierend auf einer Policy-Verteilung $\pi_\theta$ .
Skip-Connection: Die gewählte Schicht verbindet sich direkt mit dem Vision-Modell (SAM) in einer Art „Skip-Connection". Dies umgeht die nachfolgenden Schichten und reduziert die Akkumulation von Fehlern.
Dropout-ähnliches Verhalten: Über mehrere Forward-Passes hinweg werden unterschiedliche Schichten aktiviert. Dies wirkt wie ein Ensemble aus vielen Subnetzwerken und quantifiziert die Unsicherheit (ähnlich wie Monte-Carlo-Dropout), erhöht aber die Robustheit.

B. Mask as Prompt (MasP)

Statt den <SEG>-Token direkt als Prompt zu verwenden, nutzt MasP eine Ähnlichkeitskarte (Similarity Map).

Berechnung: Die Ähnlichkeit zwischen dem <SEG>-Token und den Bild-Token-Embeddings der gewählten Schicht wird berechnet.
Soft Logit Mask: Diese Ähnlichkeitskarte wird als weiche Logit-Maske (Heatmap) an SAM übergeben. Dies liefert dem Segmentierungsmodell explizite räumliche Hinweise über die Aktivierungsregionen.
Explizite Überwachung: Die Ähnlichkeitskarte wird zusätzlich durch einen Verlust (z. B. Cross-Entropy und Dice Loss) gegen die Ground-Truth-Maske (geglättet als Gauß-Heatmap) überwacht. Dies zwingt das Modell explizit dazu, die richtigen räumlichen Bereiche zu lernen.

3. Schlüsselbeiträge

Einheitliches Framework: UGround vereint erstmals verschiedene Visual-Grounding-Aufgaben in einem einzigen System:
- Von expliziten Referenzen (RES) bis hin zu implizitem Schlussfolgern (Reasoning Segmentation).
- Von Einzelziel- zu Mehrziel-Szenarien.
- Von positiven Anfragen bis hin zur Ablehnung falscher Prämissen (Empty Targets/False Premises).
Dynamische Schichtauswahl: Durch das „Entrollen" der Transformer-Schichten und die stochastische Auswahl mittels RL können Zwischenschichten direkt mit dem Decoder interagieren, was zu diskriminativeren Repräsentationen führt.
Explizite räumliche Führung: Die Nutzung der Ähnlichkeitskarte als Prompt und die explizite Überwachung der räumlichen Ausrichtung verbessern die Segmentierungsgenauigkeit signifikant im Vergleich zu rein textbasierten Prompts.

4. Ergebnisse

UGround wurde auf mehreren Benchmarks evaluiert und übertrifft den State-of-the-Art (SOTA):

ReasonSeg (Schlussfolgernde Segmentierung):
- Auf dem Testset erreichte UGround-7B eine Steigerung von +9,0% cIoU im Vergleich zum vorherigen SOTA (RSVP-GPT).
- UGround-13B verbesserte die Ergebnisse weiter und übertraf READ-13B um +2,7% cIoU.
RefCOCO(+/g) (Referenzielle Segmentierung):
- UGround-7B übertraf GLaMM-7B auf dem RefCOCOg-Testset um +1,2% cIoU.
gRefCOCO (Generalisierte Referenzielle Segmentierung):
- Hier zeigt UGround seine Stärke bei Mehrziel-Anfragen und der Erkennung leerer Ziele.
- Auf dem Validierungsset wurde GSVA-7B (ft) um +12,1% N-acc (Genauigkeit bei der korrekten Klassifizierung leerer Ziele) und +5,99% gIoU übertroffen.

5. Bedeutung und Ausblick

Die Arbeit demonstriert, dass die starre Nutzung der letzten Transformer-Schicht für visuelle Aufgaben suboptimal ist. Durch die Einführung von dynamischen, stochastischen Verbindungen und expliziten räumlichen Prompts (Mask-as-Prompt) gelingt es, die Lücke zwischen semantischem Verständnis und räumlicher Präzision zu schließen.

UGround bietet nicht nur eine neue Architektur, sondern ein einheitliches Paradigma, das die Komplexität realer visueller Interaktionen (Schlussfolgern, Mehrfachziele, Sicherheitsaspekte bei falschen Annahmen) in einem einzigen Modell abbildet. Dies ist ein wichtiger Schritt hin zu robusteren und vielseitigeren multimodalen KI-Systemen. Der Code und die Modelle sind öffentlich verfügbar, was die Reproduzierbarkeit und weitere Forschung fördert.

UGround: Towards Unified Visual Grounding with Unrolled Transformers

1. Der „Unrollte" Transformer: Ein Aufzug mit vielen Etagen

2. „Maske als Hinweis" statt „Text als Hinweis"

3. Der „Polizei-Check" (Reinforcement Learning)

Warum ist das so cool?

Zusammenfassung

1. Problemstellung und Motivation

2. Methodik: UGround und Policy-Prompted Masking (PPM)

A. Stochastic Skip Connection (SSC)

B. Mask as Prompt (MasP)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

VerifAI: A Verifiable Open-Source Search Engine for Biomedical Question Answering

Unbiased Rectification for Sequential Recommender Systems Under Fake Orders

Self-Sovereign Agent

Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent

GAN-Enhanced Deep Reinforcement Learning for Semantic-Aware Resource Allocation in 6G Network Slicing