A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Deze paper introduceert de Omnivorous Vision Encoder, een nieuw framework dat DINOv2 omzet in een modaal-agnostische visuele encoder door middel van een dubbele trainingsdoelstelling die cross-modale uitlijning bevordert en tegelijkertijd de semantische discriminatiekracht van de originele foundation behoudt.

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson, Ye Xia, Skanda Koppula, Andre Araujo, Joao Carreira, Niloy J. Mitra

Gepubliceerd 2026-03-02
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Een Alleseter voor Computers: Hoe we DINO leren om alles te zien

Stel je voor dat je een zeer slimme kunstkenner hebt, laten we hem DINO noemen. DINO is een computerprogramma dat is getraind om miljoenen foto's te bekijken. Hij is een meester in het herkennen van objecten op gewone, gekleurde foto's (RGB). Als hij een foto van een hond ziet, weet hij direct: "Dat is een hond!" Hij is zo goed dat hij zelfs de sfeer en de details van de foto voelt.

Maar er is een probleem: DINO is eigenlijk een eenzijdige eter. Hij eet alleen "visuele vlees" (gewone foto's). Als je hem een dieptekaart geeft (een zwart-wit kaart die laat zien hoe ver dingen van elkaar af staan) of een segmentatiekaart (een kaart waar elke kleur een ander object voorstelt), raakt hij in paniek.

Het Probleem: Twee talen, één brein
In dit artikel vertellen de onderzoekers een grappig verhaal:
Stel je voor dat je DINO een foto van een hond laat zien. Hij denkt: "Ah, hond!"
Vervolgens laat je hem een dieptekaart van exact dezelfde hond zien. Maar DINO denkt dan: "Dit is een willekeurige, vreemde kaart. Dit heeft niets met de foto te maken."

Voor DINO zijn de foto en de dieptekaart van dezelfde hond net zo verschillend als een foto van een hond en een foto van een auto. Zijn hersenen (de "feature space") kunnen deze twee beelden niet met elkaar verbinden. Ze lijken voor hem totaal verschillende talen te spreken.

De Oplossing: De "Alleseter" (Omnivore)
De onderzoekers van Google DeepMind en UCL hebben een oplossing bedacht om DINO te transformeren in een Alleseter (Omnivore). Net zoals een mens zowel vlees als groenten kan eten, wil deze nieuwe versie van DINO kunnen omgaan met elk type visuele input: foto's, dieptekaarten, segmentaties, en zelfs gemengde beelden.

Hoe doen ze dit? Ze gebruiken een slimme leraar-leerling-methode:

  1. De Leraar (DINO): Dit is de oude, bevroren DINO. Hij is al een expert, maar hij spreekt alleen de taal van gewone foto's. Hij mag niet veranderen; hij blijft de stabiele anker.
  2. De Leerling (De Student): Dit is een nieuwe versie van DINO die net als de leraar begint. Maar de onderzoekers voegen een klein, flexibel stukje toe aan het einde van zijn hersenen: een adapter.
  3. De Oefening: De onderzoekers laten de leerling kijken naar een scène in drie vormen tegelijk: een foto, een dieptekaart en een segmentatiekaart.
    • Ze zeggen: "Kijk, dit is dezelfde hond in drie verschillende vormen. Jij moet leren dat dit dezelfde hond is, ongeacht of het een foto of een kaart is."
    • Ze straffen de leerling als hij denkt dat de foto en de kaart verschillend zijn.
    • Ze belonen hem als hij ze herkent als hetzelfde.

De Creatieve Trucs: Hoe maak je het moeilijk?
Om te voorkomen dat de leerling een "slimme" maar domme truc bedenkt (bijvoorbeeld: "Oh, diepe kaarten zijn altijd grijs, dus ik zoek gewoon naar grijs"), gebruiken de onderzoekers twee creatieve trucs:

  • De "Kleur-Truc": Normaal gesproken zijn dieptekaarten grijs. Maar de onderzoekers kleuren de dieptekaart in met de exacte kleuren van de bijbehorende foto. Als de hond bruin is in de foto, wordt de dieptekaart van de hond ook bruin. Nu kan de leerling niet meer op de kleur letten om het verschil te zien; hij moet echt kijken naar de vorm en de structuur. Dit maakt de opdracht veel moeilijker, maar zorgt ervoor dat hij echt leert.
  • De "Smoothie-Truc" (Mixen): Tijdens het trainingen mengen ze de beelden. Ze nemen een foto van een hond en mengen er geleidelijk een dieptekaart doorheen. Soms is het 80% foto en 20% kaart, dan weer 50/50. Hierdoor leert de leerling dat er geen harde grens is tussen een foto en een kaart. Het is een continuüm. Hij leert een "smokey" taal die alles begrijpt, van pure foto tot pure kaart.

Het Resultaat: Een Super-Visie
Na deze training heeft de nieuwe DINO een wonderbaarlijke eigenschap:

  • Als je hem een foto geeft, begrijpt hij het.
  • Als je hem een dieptekaart geeft (die hij nooit eerder heeft gezien in die vorm), begrijpt hij het ook.
  • Als je hem een kaart geeft van een scène waar hij de foto van heeft geleerd, herkent hij de scène direct.

Waarom is dit belangrijk?
Stel je voor dat je een robot bouwt die een kamer moet navigeren.

  • De oude DINO zou zeggen: "Ik zie een muur op de foto, maar ik zie geen muur op de dieptekaart, dus ik weet niet wat ik moet doen."
  • De nieuwe Alleseter-DINO zegt: "Ah, dit is een muur, of het nu op een foto staat of op een dieptekaart. Ik weet precies waar ik moet gaan."

Dit maakt robots en computersystemen veel robuuster. Ze kunnen werken met imperfecte data, met verschillende soorten sensoren, en ze kunnen taken uitvoeren waarvoor ze niet specifiek zijn getraind (bijvoorbeeld: een diepte-schatting maken op basis van een segmentatiekaart, iets wat de oude DINO nooit zou kunnen).

Kortom:
De onderzoekers hebben DINO niet opnieuw getraind (wat duur en moeilijk is), maar ze hebben hem een vertaalbril opgezet. Hierdoor kan hij nu alle visuele talen spreken, zonder zijn oorspronkelijke wijsheid te verliezen. Hij is veranderd van een kieskeurige eter in een echte alleseter, klaar voor elke visuele uitdaging die op hem afkomt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →