Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een vriend belt en zegt: "Kijk, die ene vaas met de rare vorm, die staat links van de bloemen." Als je vriend de foto niet ziet, moet hij of zij heel goed kunnen begrijpen wat je bedoelt: welke vaas? Welke bloemen? En wat betekent "links"?

Dit is precies wat computers moeten doen bij Referring Expression Comprehension (REC): een object op een foto vinden op basis van een tekstuele beschrijving. Het probleem is dat computers vaak niet zo slim zijn als mensen. Ze zien wel een vaas en bloemen, maar ze begrijpen niet goed hoe die met elkaar verbonden zijn of wat "raar" betekent.

De auteurs van dit papier hebben een nieuwe manier bedacht, genaamd SGREC, om dit probleem op te lossen zonder dat ze de computer eerst duizenden voorbeelden hoeven te laten zien (dit heet "zero-shot", ofwel "zonder training").

Hier is hoe SGREC werkt, vertaald in een eenvoudig verhaal:

1. Het Probleem: De "Blinde" Zoektocht

Stel je voor dat je een detective bent die een foto moet scannen.

De oude manier (zoals CLIP): De detective kijkt naar de foto en de tekst, en probeert te raden welke vaas het dichtst bij de tekst "rare vorm" staat. Maar de detective is een beetje dom: hij ziet wel de vaas, maar hij snapt niet dat de vaas in een bloempot staat of dat hij links van een andere vaas staat. Hij raadt vaak verkeerd.
De taal-expert (LLM): Je hebt een andere detective die een taalgenie is. Hij kan perfect lezen en redeneren. Maar hij is blind! Hij kan de foto niet zien. Als je hem alleen de tekst geeft, kan hij niets doen.

2. De Oplossing: De "Schets" (Scene Graph)

SGREC lost dit op door een tussenpersoon te gebruiken: een Scene Graph (een soort schets van de scène).

Het proces verloopt in drie stappen, alsof je een team van specialisten hebt:

Stap 1: De Vinder (Object Grounding)

Eerst kijkt de computer naar de foto en zegt: "Oké, ik zie een vaas, een bloem, een lepel en een kom."
Maar de gebruiker vraagt om "de lepel links van de kom". De computer moet nu beslissen: welke lepels en kommen zijn belangrijk?

Het systeem pakt de tekst ("lepel", "kom") en zoekt in de foto naar de objecten die daarop lijken. Het filtert alles weg wat niet relevant is.

Stap 2: De Schetsmaker (Scene Graph Generation)

Nu komt het magische deel. De computer maakt een gedetailleerde schets van de foto, maar dan in tekstvorm. Dit is de "Scene Graph".

In plaats van alleen te zeggen "dit is een lepel", zegt de computer: "Dit is een witte plastic lepel (lepel.1). Hij ligt in een gele kom (kom.1). De lepel rust op de bodem van de kom."
Het systeem gebruikt een slimme AI (een Vision-Language Model) om voor elk object een verhaal te schrijven. Het beschrijft de kleur, de vorm, en vooral: hoe de objecten met elkaar omgaan.
Denk hierbij aan een detective die niet alleen een lijstje maakt, maar een verhaal schrijft: "De rode vaas staat rechts van de blauwe vaas en bevat bloemen."

Stap 3: De Taalgenie (LLM Inference)

Nu heeft de "blinde" taal-expert (de Large Language Model of LLM) eindelijk iets om aan te werken.

De computer geeft de tekst van de schets (de Scene Graph) én de vraag van de gebruiker aan de taal-expert.
De taal-expert leest het verhaal: "Ah, de gebruiker vraagt om de vaas met de rare vorm. In mijn schets zie ik dat vaas.2 een 'gedraaid ontwerp' heeft. Vaas.1 is gewoon rond. Dus moet ik vaas.2 kiezen."
De taal-expert geeft het antwoord terug, inclusief een uitleg: "Ik kies object 2, want de tekst zegt dat deze een 'gedraaid ontwerp' heeft, wat overeenkomt met 'rare vorm'."

Waarom is dit zo slim?

Geen training nodig: De computer heeft nooit eerder deze specifieke foto's gezien. Hij gebruikt zijn bestaande kennis van taal en logica om de schets te begrijpen.
Verklaringen: Omdat de computer een verhaal schrijft, kan hij ook uitleggen waarom hij een keuze maakt. Het is niet zomaar een gok; het is een logische redenering.
Ruimtelijk inzicht: Door de coördinaten (x, y) in de schets te zetten, kan de taal-expert rekenen: "Als de vaas hier staat en de bloemen daar, dan is de vaas inderdaad links."

Samenvatting in één zin

SGREC is als een tolk die eerst een foto vertaalt naar een gedetailleerd verhaal (de schets), zodat een taal-expert dat verhaal kan lezen en precies weet welk object je bedoelt, zonder dat de computer ooit heeft geoefend met dit specifieke soort foto's.

Het resultaat? De computer wordt veel beter in het vinden van de juiste objecten op foto's, zelfs bij moeilijke vragen zoals "de tweede vaas van links die bloemen bevat", en hij kan zelfs uitleggen waarom hij het juiste antwoord heeft gekozen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Interpretable Zero-shot Referring Expression Comprehension met Query-gedreven Scenegraphs

1. Het Probleem

Referring Expression Comprehension (REC) is de taak om een specifiek object in een afbeelding te lokaliseren op basis van een natuurlijke taalquery (bijv. "de rode bal links van de hond").

Zero-shot uitdaging: De meeste bestaande methoden vereisen gespecificeerde trainingsdata voor de REC-taak. Zero-shot REC probeert dit zonder dergelijke data, wat essentieel is voor real-world scenario's waar gelabelde data schaars is.
Beperkingen van bestaande oplossingen:
- Vision-Language Models (VLMs) zoals CLIP: Deze meten vaak alleen de feature-ähnlichkeit tussen tekst en beeldregio's. Ze worstelen met het begrijpen van fijne visuele details, complexe ruimtelijke relaties en contextuele interacties tussen objecten.
- Large Language Models (LLMs): Hoewel deze uitstekend zijn in semantisch redeneren, kunnen ze visuele kenmerken niet direct vertalen naar tekstuele semantics zonder visuele input, wat hun toepassing beperkt.
- Bestaande Zero-shot methoden: Ze missen vaak de capaciteit om complexe ruimtelijke en semantische relaties in een scène te modelleren.

2. Methodologie: SGREC

De auteurs stellen SGREC voor, een nieuw raamwerk dat query-gedreven scenegraphs gebruikt als gestructureerde tussenlaag om de kloof tussen visuele waarneming en taalredenering te overbruggen. Het proces verloopt in drie stappen (zie Figuur 3 in het artikel):

Stap 1: Object Grounding (Identificatie van relevante objecten)

Het systeem analyseert de invoerquery en de afbeelding om alleen de voor de query relevante objecten te selecteren.
Techniek:
- Zelfstandig naamwoorden extractie: Gebruik van SpaCy om zelfstandig naamwoorden uit de query te halen.
- Categorievoorspelling: Toewijzen van deze woorden aan bekende objectcategorieën (bijv. COCO).
- Onderwerp-inferentie: Een VLM (LLaVA) wordt gebruikt om het onderwerp van de query te infereren op basis van de afbeelding (bijv. als de query "het linker ding" is, inferreert het model dat dit een "giraf" is).
- Selectie: Objecten in de afbeelding worden geselecteerd als hun labels semantisch overeenkomen met de geëxtraheerde woorden (gemeten via cosine similarity van word2vec embeddings).

Stap 2: Generatie van Query-gedreven Scenegraphs

Voor de geselecteerde objecten wordt een gestructureerde scenegraph gegenereerd. Deze graph bevat drie soorten informatie per object en hun relaties:
1. Ruimtelijke informatie: Bounding box-coördinaten $(x_1, y_1, x_2, y_2)$ . Dit stelt het LLM in staat om zelf ruimtelijke relaties (links, rechts, boven, onder) te berekenen in plaats van ze vooraf te definiëren.
2. Object beschrijvingen (Captions): In plaats van beperkte attributen, genereert een VLM (LLaVA) een gedetailleerde, natuurlijke taalbeschrijving van elk object (kleur, vorm, materiaal, actie).
3. Interacties: Een VLM voorspelt relaties tussen objectparen (bijv. "houdt vast aan", "zit op") en genereert relationele triplets.
De output is een gestructureerde JSON-string die de visuele scène als tekst presenteert.

Stap 3: LLM Inferentie

De gegenereerde scenegraph (in JSON-formaat) en de originele query worden ingevoerd in een Large Language Model (LLM).
Het LLM fungeert als een redeneermotor die de gestructureerde tekst analyseert om het ID van het doelobject te bepalen.
Interpreteerbaarheid: Het LLM levert niet alleen het antwoord, maar ook een uitgebreide uitleg (rationale) waarom een bepaald object is gekozen, gebaseerd op de coördinaten, beschrijvingen en relaties in de graph.

3. Belangrijkste Bijdragen

Nieuw Raamwerk: SGREC is het eerste zero-shot REC-systeem dat scenegraphs combineert met LLMs voor interpretabele objectlokalisatie.
Query-gedreven Scenegraph Module: Een innovatieve module die ruimtelijke data, objectcaptions en interacties integreert, specifiek afgestemd op de context van de query. Dit omzeilt de beperkingen van "bag-of-words" modellen.
Interpreteerbaarheid: Door de visuele scène te vertalen naar gestructureerde tekst, kan het LLM zijn redenering uitleggen, wat inzicht geeft in het beslissingsproces.
State-of-the-art Prestaties: Het systeem presteert zonder enige taak-specifieke fine-tuning (zero-shot) en slaat bestaande methoden die wel fine-tuning gebruiken of complexere pipelines hebben.

4. Resultaten

Het model is getest op de standaard benchmarks RefCOCO, RefCOCO+ en RefCOCOg.

Prestaties: SGREC bereikt de hoogste Top-1 nauwkeurigheid op de meeste splits.
- RefCOCO val: 66,78%
- RefCOCO+ testB: 53,43%
- RefCOCOg val: 73,28%
Vergelijking: Het presteert aanzienlijk beter dan andere zero-shot methoden (zoals ReCLIP, RedCircle, GroundVLP) en zelfs beter dan sommige methoden die gebruikmaken van grotere modellen (zoals ViperGPT of EAGR) of zelfs bepaalde weakly-supervised methoden.
Robuustheid: Het model toont sterke prestaties in dichte scènes en bij het hanteren van lange-tail (zeldzame) objectnamen.
Ablatiestudies: De studie toont aan dat alle componenten (coördinaten, captions, interacties) essentieel zijn. Vooral de toevoeging van objectcaptions en interacties verbetert de prestaties aanzienlijk, vooral op datasets met complexe queries (RefCOCOg).

5. Betekenis en Conclusie

SGREC markeert een verschuiving in zero-shot REC van directe feature-matching naar gestructureerd semantisch redeneren.

Brug tussen Visie en Taal: Het lost het probleem op dat VLMs moeite hebben met context en LLMs moeite hebben met visuele abstractie, door de visuele scène te vertalen naar een voor LLMs leesbare, gestructureerde tekst (scenegraph).
Toekomstperspectief: De methode demonstreert dat het gebruik van bestaande, grote pre-trained modellen (VLMs en LLMs) zonder fine-tuning leidt tot superieure resultaten, mits de juiste tussenlaag (de scenegraph) wordt gebruikt.
Beperking: Het huidige proces is rekentijd-intensief omdat het twee grote modellen (VLM voor graph-generatie en LLM voor inferentie) vereist, wat de inferentiesnelheid beïnvloedt.

Kortom, SGREC biedt een krachtige, interpreteerbare en nauwkeurige oplossing voor het lokaliseren van objecten in afbeeldingen op basis van complexe taalqueries, zonder de noodzaak van kostbare trainingsdata.