Interpretable Zero-shot Referring Expression Comprehension with Query-driven Scene Graphs

SGREC is een interpreteerbare zero-shot methode voor het lokaliseren van objecten in afbeeldingen op basis van tekstuele queries, die de beperkingen van bestaande visueel-taalmodellen overwint door het gebruik van query-gestuurde sceneschermen als gestructureerde tussenlaag voor een groot taalmodel.

Yike Wu, Necva Bolucu, Stephen Wan, Dadong Wang, Jiahao Xia, Jian Zhang

Gepubliceerd 2026-03-27
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een vriend belt en zegt: "Kijk, die ene vaas met de rare vorm, die staat links van de bloemen." Als je vriend de foto niet ziet, moet hij of zij heel goed kunnen begrijpen wat je bedoelt: welke vaas? Welke bloemen? En wat betekent "links"?

Dit is precies wat computers moeten doen bij Referring Expression Comprehension (REC): een object op een foto vinden op basis van een tekstuele beschrijving. Het probleem is dat computers vaak niet zo slim zijn als mensen. Ze zien wel een vaas en bloemen, maar ze begrijpen niet goed hoe die met elkaar verbonden zijn of wat "raar" betekent.

De auteurs van dit papier hebben een nieuwe manier bedacht, genaamd SGREC, om dit probleem op te lossen zonder dat ze de computer eerst duizenden voorbeelden hoeven te laten zien (dit heet "zero-shot", ofwel "zonder training").

Hier is hoe SGREC werkt, vertaald in een eenvoudig verhaal:

1. Het Probleem: De "Blinde" Zoektocht

Stel je voor dat je een detective bent die een foto moet scannen.

  • De oude manier (zoals CLIP): De detective kijkt naar de foto en de tekst, en probeert te raden welke vaas het dichtst bij de tekst "rare vorm" staat. Maar de detective is een beetje dom: hij ziet wel de vaas, maar hij snapt niet dat de vaas in een bloempot staat of dat hij links van een andere vaas staat. Hij raadt vaak verkeerd.
  • De taal-expert (LLM): Je hebt een andere detective die een taalgenie is. Hij kan perfect lezen en redeneren. Maar hij is blind! Hij kan de foto niet zien. Als je hem alleen de tekst geeft, kan hij niets doen.

2. De Oplossing: De "Schets" (Scene Graph)

SGREC lost dit op door een tussenpersoon te gebruiken: een Scene Graph (een soort schets van de scène).

Het proces verloopt in drie stappen, alsof je een team van specialisten hebt:

Stap 1: De Vinder (Object Grounding)

Eerst kijkt de computer naar de foto en zegt: "Oké, ik zie een vaas, een bloem, een lepel en een kom."
Maar de gebruiker vraagt om "de lepel links van de kom". De computer moet nu beslissen: welke lepels en kommen zijn belangrijk?

  • Het systeem pakt de tekst ("lepel", "kom") en zoekt in de foto naar de objecten die daarop lijken. Het filtert alles weg wat niet relevant is.

Stap 2: De Schetsmaker (Scene Graph Generation)

Nu komt het magische deel. De computer maakt een gedetailleerde schets van de foto, maar dan in tekstvorm. Dit is de "Scene Graph".

  • In plaats van alleen te zeggen "dit is een lepel", zegt de computer: "Dit is een witte plastic lepel (lepel.1). Hij ligt in een gele kom (kom.1). De lepel rust op de bodem van de kom."
  • Het systeem gebruikt een slimme AI (een Vision-Language Model) om voor elk object een verhaal te schrijven. Het beschrijft de kleur, de vorm, en vooral: hoe de objecten met elkaar omgaan.
  • Denk hierbij aan een detective die niet alleen een lijstje maakt, maar een verhaal schrijft: "De rode vaas staat rechts van de blauwe vaas en bevat bloemen."

Stap 3: De Taalgenie (LLM Inference)

Nu heeft de "blinde" taal-expert (de Large Language Model of LLM) eindelijk iets om aan te werken.

  • De computer geeft de tekst van de schets (de Scene Graph) én de vraag van de gebruiker aan de taal-expert.
  • De taal-expert leest het verhaal: "Ah, de gebruiker vraagt om de vaas met de rare vorm. In mijn schets zie ik dat vaas.2 een 'gedraaid ontwerp' heeft. Vaas.1 is gewoon rond. Dus moet ik vaas.2 kiezen."
  • De taal-expert geeft het antwoord terug, inclusief een uitleg: "Ik kies object 2, want de tekst zegt dat deze een 'gedraaid ontwerp' heeft, wat overeenkomt met 'rare vorm'."

Waarom is dit zo slim?

  • Geen training nodig: De computer heeft nooit eerder deze specifieke foto's gezien. Hij gebruikt zijn bestaande kennis van taal en logica om de schets te begrijpen.
  • Verklaringen: Omdat de computer een verhaal schrijft, kan hij ook uitleggen waarom hij een keuze maakt. Het is niet zomaar een gok; het is een logische redenering.
  • Ruimtelijk inzicht: Door de coördinaten (x, y) in de schets te zetten, kan de taal-expert rekenen: "Als de vaas hier staat en de bloemen daar, dan is de vaas inderdaad links."

Samenvatting in één zin

SGREC is als een tolk die eerst een foto vertaalt naar een gedetailleerd verhaal (de schets), zodat een taal-expert dat verhaal kan lezen en precies weet welk object je bedoelt, zonder dat de computer ooit heeft geoefend met dit specifieke soort foto's.

Het resultaat? De computer wordt veel beter in het vinden van de juiste objecten op foto's, zelfs bij moeilijke vragen zoals "de tweede vaas van links die bloemen bevat", en hij kan zelfs uitleggen waarom hij het juiste antwoord heeft gekozen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →