OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

Dit paper introduceert OV-DEIM, een real-time open-vocabulary objectdetector op basis van het DEIMv2-architectuur die, door middel van een query-aanvullingsstrategie en de nieuwe GridSynthetic-dataaugmentatietechniek, state-of-the-art prestaties bereikt met verbeterde efficiëntie en detectie van zeldzame categorieën.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super slimme, snelle camera hebt die overal in de wereld kan kijken. Deze camera moet niet alleen zien dat er iets is, maar ook precies wat het is, zelfs als het iets is waarvoor de camera nooit eerder is getraind. Dit heet "Open-Vocabulary Object Detection".

Het probleem is dat de meeste slimme camera's die we nu hebben, ofwel traag zijn (zoals een gedetailleerde schilder die alles eerst goed bekijkt voordat hij tekent), ofwel snel maar beperkt (zoals een snelle fotograaf die alleen bekende gezichten herkent).

De auteurs van dit paper hebben OV-DEIM bedacht. Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

1. De Snelle Schilder (DETR vs. YOLO)

Stel je twee soorten detectives voor:

  • De oude stijl (YOLO): Dit is een detective die heel snel door een menigte loopt en iedereen die hij ziet, eerst op een lijstje zet. Daarna moet hij die lijstje doorlopen, dubbele namen schrappen en beslissen wie er echt belangrijk is. Dit "dubbelchecken" kost tijd.
  • De nieuwe stijl (DETR): Dit is een detective die direct ziet wie de dader is en direct de naam noemt. Geen lijstjes, geen schrappen. Dit is veel sneller en efficiënter.

Het probleem met de nieuwe stijl (DETR) was tot nu toe dat ze vaak te traag waren voor echt snelle toepassingen (zoals een zelfrijdende auto) en moeite hadden met zeldzame dingen (zoals een "blauwe giraffe" in plaats van een gewone).

OV-DEIM is de oplossing: het is een snelle DETR. Het combineert de snelheid van de oude stijl met de slimme, directe aanpak van de nieuwe stijl. Het kan dus in real-time kijken en direct zeggen: "Daar is een blauwe giraffe!" zonder te hoeven twijfelen of te schrappen.

2. De Magische Grid (GridSynthetic)

Hoe leer je een camera om dingen te herkennen die het nog nooit heeft gezien? Je moet het veel oefenen. Maar als je alleen maar foto's van een hond op een grasveld laat zien, weet de hond niet hoe hij eruitziet als hij in een badkuip zit of op een fiets.

De auteurs gebruiken een truc genaamd GridSynthetic.

  • Het idee: Stel je voor dat je een leeg canvas hebt. Je pakt nu niet één foto, maar knipt stukjes uit honderden verschillende foto's: een wiel van een fiets, een kopje koffie, een kat, een sneeuwschoen.
  • De truc: Je plakt deze stukjes in een strak raster (een grid) op je canvas, net als een bord met verschillende vakjes.
  • Het resultaat: De camera ziet in één oogopslag een heel nieuwe, bizarre scène met veel verschillende objecten die normaal nooit samen voorkomen.

Dit helpt de camera op twee manieren:

  1. Het maakt het makkelijker: Omdat de objecten netjes in vakjes zitten, hoeft de camera niet te gissen waar de randen van het object zijn. Het kan zich volledig focussen op de naam van het object.
  2. Het maakt het slimmer: De camera leert dat een "fietswiel" en een "kat" samen kunnen bestaan, zelfs als dat in de echte wereld rare combinaties zijn. Dit maakt de camera veel beter in het herkennen van zeldzame dingen.

3. De Extra Oefenvragen (Query Supplement)

Stel je voor dat je een examen doet met 300 vragen. Maar je weet dat er soms meer dan 300 dingen op de foto staan. Dan mis je misschien de laatste paar.

Normaal gesproken heeft een DETR-camera maar een vast aantal "vragen" (of zoekopdrachten) om objecten te vinden. Als er meer objecten zijn dan vragen, mis je ze.
De auteurs voegen een slimme truc toe: Query Supplement.

  • Ze laten de camera eerst een snelle scan maken (de "encoder") en daaruit extra "vragen" halen voor de objecten die de camera nog niet heeft gevonden.
  • Dit is alsof je tijdens het examen extra blaadjes krijgt om je antwoorden op te schrijven, zonder dat je langzamer moet denken. Je krijgt meer kans om alles te vinden, maar het kost je geen extra tijd om te schrijven.

Waarom is dit belangrijk?

In de echte wereld verandert alles. Vandaag zie je een hond, morgen een drone, en overmorgen een robot.

  • Snelheid: OV-DEIM is snel genoeg voor robots en auto's die in real-time moeten reageren.
  • Slimheid: Het herkent zeldzame dingen (zoals een "roze olifant") veel beter dan de huidige snelste camera's.
  • Geen gedoe: Het heeft geen ingewikkelde "dubbelcheck"-stappen nodig, waardoor het energiezuiniger en sneller is.

Kortom: OV-DEIM is als het geven van een superkracht aan een snelle camera. Door slimme oefeningen (de Grid) en een slimme manier van zoeken (de extra vragen), kan deze camera in een flits zien wat er gebeurt, zelfs als het iets is dat niemand eerder heeft bedacht.