SGG-R$^{\rm 3}$: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een foto bekijkt en die niet alleen moet beschrijven, maar ook moet uitleggen hoe alles met elkaar samenhangt. Wie zit waar? Wat draagt die persoon? Waar staat de auto? In de kunstmatige intelligentie noemen we dit het maken van een Scène Graph (een "scènetekening"). Het is als een visueel stroomschema van een foto.

Het probleem met de oude methoden is dat ze vaak "blind" waren. Ze zagen veel objecten, maar misten de rare of zeldzame verbanden (bijvoorbeeld: "de man leunt tegen de muur" in plaats van alleen "de man staat bij de muur"). Ze waren ook vaak te voor de hand liggend en gaven te vaak dezelfde saaie antwoorden.

De auteurs van dit paper hebben een nieuwe manier bedacht, genaamd SGG-R3. Ze gebruiken een slimme AI (een Multimodaal Groot Taalmodel) en trainen deze alsof ze een jonge student opleiden tot een detective. Hier is hoe het werkt, vertaald in alledaags taal:

1. De Drie Stappen van de Detective (De "Chain of Thought")

In plaats van dat de AI direct een antwoord schreeuwt ("Er is een hond en een bal!"), dwingen de onderzoekers de AI om eerst nadenken in drie duidelijke stappen. Dit is als een detective die een dossier opbouwt:

Stap 1: De Lijst van Verdachten (Categorie Detectie).
De AI kijkt eerst naar de foto en maakt een lijstje: "Oké, ik zie een mens, een auto en een boom." Ze zoeken nog niet naar details, ze tellen alleen de soorten.
Stap 2: De Identificatie (Instance Grounding).
Nu wijst de AI precies aan waar die dingen zitten. "Dat is Mens 1, die staat links. Dat is Mens 2, die staat rechts." Ze geven elk object een uniek nummer, zodat ze ze niet verwarren.
Stap 3: Het Verhaal (Relatie Extractie).
Pas nu, als ze weten wie wie is en waar ze staan, vertellen ze het verhaal: "Mens 1 houdt Mens 2 vast" of "De auto staat op de weg."

Door deze stappen strikt te scheiden, raakt de AI niet in de war en maakt minder fouten.

2. Het Opvullen van de Gaten (Relatie Augmentatie)

Een groot probleem bij het leren van AI is dat ze vaak alleen leren van de "populaire" dingen. Als in 90% van de foto's een hond zit, leert de AI dat honden altijd zitten. Ze vergeten dat honden ook kunnen springen of slapen. Dit noemen ze het "lange staart"-probleem (zeldzame dingen worden genegeerd).

Om dit op te lossen, gebruiken de onderzoekers een slimme truc:

Ze laten een super-slimme AI (Qwen2.5-VL) de foto bekijken en zelf nieuwe, logische verbanden bedenken die misschien niet in de originele foto stonden.
Ze filteren deze nieuwe ideeën met een "semantische scanner" (een soort taal-thermometer). Als de AI bedenkt: "De hond vliegt in de lucht", wordt dit weggegooid omdat dat onlogisch is. Maar als ze bedenkt: "De hond slaapt op het tapijt" (wat zeldzaam was in de data), wordt dit bewaard.
Zo krijgen ze een veel rijker leerboek voor de AI, vol met zeldzame maar waardevolle verbanden.

3. De Slimme Trainer (Reinforcement Learning met Dubbele Beloning)

Tenslotte trainen ze de AI met een systeem van beloningen, zoals een trainer die een hond traint. Maar deze trainer is heel specifiek:

De "Fijne" Beloning: De AI krijgt punten als ze de exacte juiste woorden gebruikt (bijv. "springen" in plaats van "bewegen").
De "Grove" Beloning: Dit is de creatieve twist. De AI krijgt ook punten als ze een verband ziet dat soortgelijk is aan het juiste antwoord, zelfs als het niet 100% hetzelfde woord is.
- Voorbeeld: Als de echte relatie "de man leunt tegen de muur" is, en de AI zegt "de man staat bij de muur", krijgt ze toch een deel van de punten.
- Dit helpt de AI om niet bang te zijn voor zeldzame situaties en zorgt ervoor dat ze meer variatie leert, in plaats van alleen de meest voor de hand liggende antwoorden te herhalen.

Het Resultaat

Door deze drie stappen te combineren (nadenken in stappen, het boek vullen met meer voorbeelden, en een slimme trainer die zowel precisie als creativiteit beloont), wordt de AI veel beter in het begrijpen van complexe foto's.

Kort samengevat:
SGG-R3 is als het opleiden van een jonge detective die eerst een lijst maakt, dan de mensen identificeert, en pas daarna het verhaal vertelt. Ze krijgen extra oefenmateriaal om zeldzame situaties te leren, en een trainer die ze beloont voor het zien van de "geest" van de situatie, niet alleen voor het raden van het juiste woord. Het resultaat is een AI die foto's niet alleen ziet, maar echt begrijpt.

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

1. De Drie Stappen van de Detective (De "Chain of Thought")

2. Het Opvullen van de Gaten (Relatie Augmentatie)

3. De Slimme Trainer (Reinforcement Learning met Dubbele Beloning)

Het Resultaat

1. Het Probleem

2. Methodologie: SGG-R3 Framework

A. Drie-staps Gestructureerd Redeneren (Chain-of-Thought)

B. Type-bewuste Relatie Augmentatie (voor SFT)

C. Dual-Granulariteit Beloningsschema (voor RL)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

SGG-R3^{\rm 3}3: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

1. De Drie Stappen van de Detective (De "Chain of Thought")

2. Het Opvullen van de Gaten (Relatie Augmentatie)

3. De Slimme Trainer (Reinforcement Learning met Dubbele Beloning)

Het Resultaat

1. Het Probleem

2. Methodologie: SGG-R3 Framework

A. Drie-staps Gestructureerd Redeneren (Chain-of-Thought)

B. Type-bewuste Relatie Augmentatie (voor SFT)

C. Dual-Granulariteit Beloningsschema (voor RL)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation