SGG-R$^{\rm 3}$: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du schaust auf ein Foto und versuchst, es nicht nur zu beschreiben, sondern die Beziehungen zwischen allem, was du siehst, zu verstehen. Ein Bild zeigt vielleicht einen Mann, eine Brille und eine Straße. Ein einfaches Bilderkennungssystem sagt dir nur: „Mann, Brille, Straße".

Ein Scene Graph Generator (ein Werkzeug zur Bildanalyse) geht aber einen Schritt weiter. Es baut eine Art Landkarte der Beziehungen: „Der Mann trägt die Brille" und „Der Mann steht auf der Straße". Das Ziel ist es, aus einem Bild eine vollständige, logische Geschichte zu machen.

Das Problem ist: Bisherige KI-Modelle sind oft wie ein Schüler, der auswendig gelernt hat, aber nicht wirklich versteht. Sie erkennen nur die häufigsten Dinge („Mann auf Stuhl") und übersehen seltene oder komplexe Zusammenhänge („Mann hält eine Tasse, die auf einem Tisch steht, der neben einem Fenster ist"). Außerdem machen sie viele Fehler, weil sie versuchen, alles auf einmal zu erraten, ohne einen Plan.

Die Forscher in diesem Papier haben eine neue Methode namens SGG-R3 entwickelt. Sie nennen es „R3", weil es auf drei Säulen (R) basiert. Hier ist die Erklärung mit einfachen Analogien:

1. Der Plan: Nicht raten, sondern denken (Chain-of-Thought)

Stell dir vor, du musst einen komplexen Kuchen backen.

Die alten Methoden warfen einfach alle Zutaten in den Mixer und hofften auf einen Kuchen. Das Ergebnis war oft ein Matsch.
SGG-R3 zwingt die KI, wie ein professioneller Koch vorzugehen. Die KI muss den Prozess in drei klare Schritte unterteilen:
1. Was ist da? (Welche Zutaten/Objekte sehe ich? Nur eine Liste, keine Details.)
2. Wo ist es? (Wo genau steht der Zucker? Wo ist das Ei? Ich markiere jeden einzelnen Gegenstand.)
3. Wie hängen sie zusammen? (Wer trägt wen? Was steht auf was?)

Indem die KI diesen strengen Plan befolgt, macht sie weniger Fehler und „halluziniert" weniger Dinge, die gar nicht da sind.

2. Der Trainer: Mehr Übungsmaterial (Relation Augmentation)

Das größte Problem bei diesen Bildern ist, dass es im Trainingsmaterial sehr wenige Beispiele für seltene Dinge gibt. Es gibt tausende Bilder von „Mann auf Stuhl", aber nur wenige von „Mann, der eine Eidechse auf der Schulter trägt". Die KI lernt also nur das Häufige und ignoriert das Seltene.

Die Lösung: Die Forscher nutzen eine sehr starke KI (Qwen2.5-VL), um neue, plausible Übungsaufgaben zu erfinden.
Die Analogie: Stell dir vor, du lernst eine Sprache, aber dein Lehrbuch hat nur 10 Sätze. Deine KI-Lern-Assistentin schreibt dir nun 100 neue, sinnvolle Sätze dazu, die aber streng geprüft werden, damit sie grammatikalisch korrekt und logisch sind.
Der Filter: Bevor diese neuen Sätze in das Lehrbuch kommen, prüft ein „Grammatik-Filter" (ein mathematischer Vergleich), ob sie wirklich zum Original passen. So wird die KI auf eine viel breitere Palette von Situationen vorbereitet, ohne dass man manuell tausende neue Fotos machen muss.

3. Der Belohnungssystem: Gerecht und clever (Dual-Granularity Reward)

Wenn die KI trainiert wird, bekommt sie Punkte für richtige Antworten. Das Problem: Wenn die KI nur die häufigen Antworten gibt, bekommt sie immer Punkte. Seltene Antworten werden ignoriert, weil die KI Angst hat, sie falsch zu machen.

Die Lösung: Das neue Belohnungssystem ist wie ein fairer Lehrer, der zwei Dinge belohnt:
1. Präzision (Fein): Wenn die KI genau das sagt, was im Bild ist (z. B. „Hund sitzt auf Sofa"), gibt es Punkte.
2. Abdeckung (Grob): Wenn die KI etwas sagt, das nicht exakt dem Wortlaut entspricht, aber die Bedeutung trifft (z. B. statt „sitzt" sagt sie „ist auf"), gibt es trotzdem Punkte.
Der Clou: Das System gibt mehr Punkte für seltene Antworten. Wenn die KI einen seltenen Zusammenhang erkennt (wie „Eidechse auf Schulter"), wird sie dafür besonders belohnt, damit sie lernt, dass diese Dinge wichtig sind. Das verhindert, dass die KI nur das „Langweilige" und Häufige ausspuckt.

Das Ergebnis

Durch diese drei Schritte – klarer Plan, mehr Übungsmaterial und faires Belohnungssystem – wird die KI viel besser darin, komplexe Bilder zu verstehen. Sie erkennt nicht nur die offensichtlichen Dinge, sondern auch die feinen Details und seltenen Beziehungen.

Zusammenfassend:
SGG-R3 verwandelt die KI von einem blinden Rater, der nur das Häufige kennt, in einen strukturierten Detektiv, der Schritt für Schritt das Bild analysiert, auch die seltenen Hinweise beachtet und am Ende eine vollständige, faire und genaue Geschichte über das Bild erzählt.

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

1. Der Plan: Nicht raten, sondern denken (Chain-of-Thought)

2. Der Trainer: Mehr Übungsmaterial (Relation Augmentation)

3. Der Belohnungssystem: Gerecht und clever (Dual-Granularity Reward)

Das Ergebnis

1. Problemstellung

2. Methodik: Das SGG-R3-Framework

A. Drei-Stufen-Strukturiertes Reasoning (Chain-of-Thought)

B. Relation-Augmentierung (für SFT)

C. Reinforcement Learning mit Group Sequence Policy Optimization (GSPO)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

SGG-R3^{\rm 3}3: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

1. Der Plan: Nicht raten, sondern denken (Chain-of-Thought)

2. Der Trainer: Mehr Übungsmaterial (Relation Augmentation)

3. Der Belohnungssystem: Gerecht und clever (Dual-Granularity Reward)

Das Ergebnis

1. Problemstellung

2. Methodik: Das SGG-R3-Framework

A. Drei-Stufen-Strukturiertes Reasoning (Chain-of-Thought)

B. Relation-Augmentierung (für SFT)

C. Reinforcement Learning mit Group Sequence Policy Optimization (GSPO)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation