Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische, super-intelligente robot hebt die miljoenen foto's heeft gezien. Deze robot, genaamd DINOv2, kan heel goed dingen herkennen: hij weet wat een kat is, hoe diep een afgrond is, en waar de randen van een gebouw liggen. Maar als we hem vragen: "Hoe weet jij dat?", dan geeft hij ons geen antwoord. Hij praat in een onbegrijpelijk codeertaal van duizenden getallen.

Deze paper is als een speurtocht om te ontdekken hoe die robot in zijn hoofd werkt. De onderzoekers hebben drie grote stappen gezet om dit raadsel op te lossen.

Stap 1: De Grote Woordenlijst (De "Concepten")

Stel je voor dat de robot een enorme woordenlijst heeft met 32.000 woorden. Maar deze woorden zijn geen "kat" of "boom". Het zijn heel specifieke ideeën, zoals:

"Alles behalve de kat" (een idee dat helpt om te zeggen: "Dit is geen kat, maar ergens anders in de foto zit er wel eentje").
"De rand van een object" (handig om te weten waar iets stopt).
"Schaduwen die diepte aangeven".

De onderzoekers hebben deze lijst gemaakt met een slimme truc (een "Sparse Autoencoder"). Ze hebben gekeken welke van deze 32.000 ideeën de robot gebruikt voor verschillende taken:

Voor het herkennen van dieren: Hij gebruikt vooral de "alles-behalve" ideeën.
Voor het tekenen van randen: Hij gebruikt de "rand-ideeën".
Voor het schatten van diepte: Hij gebruikt drie soorten ideeën die lijken op hoe mensen diepte zien: perspectieflijnen, schaduwen en hoe scherp of wazig iets is.

De verrassing: De robot gebruikt niet dezelfde ideeën voor alles. Het is alsof hij voor elke taak een heel specifiek gereedschapskistje pakt.

Stap 2: De Vorm van de Ideeën (De "Vorm")

Tot nu toe dachten wetenschappers dat de ideeën van de robot lijken op pijlen in een ruimte: rechte lijnen die allemaal loodrecht op elkaar staan (zoals de assen op een grafiek).

Maar de onderzoekers ontdekten dat het niet zo simpel is.

De ideeën zitten niet perfect uit elkaar; ze overlappen en vormen groepjes.
Sommige ideeën zijn elkaars tegenpool (zoals "links" en "rechts", of "wit" en "zwart"), maar ze zitten op dezelfde lijn, alleen in de tegenovergestelde richting.
De robot slaat informatie op in een soepel, verbonden netwerk, niet als losse, harde blokjes.

Het is alsof je niet denkt in losse bouwstenen, maar in een zachte, vervormbare klei die je kunt rekken en samenvoegen.

Stap 3: De Nieuwe Theorie (Het "Konijn in het Hol")

Hier komt de meest interessante ontdekking. De onderzoekers zeggen: "Laten we stoppen met denken in rechte lijnen. Laten we denken in vormen."

Ze noemen dit de Minkowski-Representatie Hypothesis. Klinkt ingewikkeld, maar het is eigenlijk heel simpel:

Stel je voor dat elk idee in de robot een landmark is, zoals een punt op een kaart.

Er is een punt voor "Konijn".
Er is een punt voor "Bruin".
Er is een punt voor "Vacht".

Wanneer de robot een foto van een bruin konijn ziet, is zijn antwoord niet één rechte lijn. Het is een som van deze punten. Hij zegt eigenlijk: "Ik ben een mengsel van het Konijn-landmark, het Bruin-landmark en het Vacht-landmark."

In wiskundige termen noemen ze dit een Minkowski-som. Het is alsof je verschillende vormen (zoals een driehoek en een vierkant) over elkaar legt en het totale gebied dat ze samen bedekken, is het antwoord van de robot.

Waarom is dit belangrijk?
Omdat de robot werkt met Aandacht (Attention). In zijn hoofd kijkt hij naar verschillende delen van een foto en kiest hij de beste "landmarks" om die te combineren.

Als je een konijn ziet, kiest hij het "Konijn-landmark".
Als je een auto ziet, kiest hij het "Auto-landmark".
De robot is eigenlijk een meester in het mixen van deze vaste punten om iets nieuws te creëren.

Wat betekent dit voor ons?

Geen rechte lijnen meer: We moeten stoppen met zoeken naar "één rechte lijn" die een concept vertegenwoordigt. Concepten zijn gebieden of zones rondom een punt.
De robot is slim in zijn logica: Hij gebruikt slimme trucs, zoals het idee van "niet-de-kat" (Elsewhere), om te weten wat er niet is, zodat hij beter kan weten wat er wel is.
Toekomst: Als we dit begrijpen, kunnen we de robot beter begrijpen, beter sturen en misschien zelfs fouten in zijn denken sneller vinden.

Kortom:
De robot DINOv2 is geen machine die werkt met losse, rechte pijlen. Het is een kunstenaar die werkt met landmarks en vormen. Hij combineert vaste punten (zoals "konijn", "bruin", "rand") tot een soepel, nieuw beeld. De onderzoekers hebben de kaart getekend van hoe deze robot in zijn hoofd denkt, en het blijkt veel mooier en complexer te zijn dan we dachten.

Each language version is independently generated for its own context, not a direct translation.

Titel: Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

Publicatie: ICLR 2026 (Extended Version)
Auteurs: Thomas Fel, Binxu Wang, et al. (Kempner Institute, Harvard University, en anderen)

1. Het Probleem

Vision Transformers (ViT's), en specifiek het zelf-superviserende model DINOv2, hebben zich bewezen als krachtige foundation modellen voor diverse visuele taken (classificatie, segmentatie, dieptheschatting). Ondanks hun succes blijft de aard van hun interne representaties grotendeels een "black box".

Bestaande Aannames: De huidige interpretatie van deze modellen steunt vaak op de Linear Representation Hypothesis (LRH). Deze hypothese stelt dat interne features een spaarse, bijna orthogonale superpositie zijn van onafhankelijke richtingen in de activatieruimte.
De Tekortkoming: Hoewel LRH nuttig is, suggereert het dat concepten puur lineaire richtingen zijn. De auteurs stellen dat dit beeld te simplistisch is en dat er meer complexe geometrische structuren (zoals convexiteit en lokale connectiviteit) aanwezig zijn die door LRH niet volledig worden gevangen. Er is behoefte aan een dieper begrip van hoe DINOv2 visuele informatie organiseert en hoe deze structuren zich verhouden tot specifieke taken.

2. Methodologie

De auteurs hanteren een drieledige aanpak om de representaties van DINOv2 te ontleden:

A. Operationalisatie via Sparse Autoencoders (SAE)

Om de LRH te testen en concepten te extraheren, trainen de auteurs een Stable Sparse Autoencoder op de activaties van DINOv2-B.

Dictionary Learning: Ze leren een overcomplete dictionary van 32.000 concepten (atoms) die de activaties van het model kunnen reconstrueren.
Stabiliteit: In tegenstelling tot eerdere SAE's, gebruiken ze een methode waarbij dictionary-atomen beperkt blijven tot het convexe omhulsel van echte activaties. Dit garandeert dat de concepten "in-distribution" zijn en reproduceerbaar.
Output: Een interactieve visualisatie-tool (DinoVision) die deze 32k concepten toegankelijk maakt.

B. Analyse van Downstream Taken

Ze analyseren hoe verschillende taken (classificatie, segmentatie, dieptheschatting) specifieke subgroepen van deze 32.000 concepten "rekruteren". Ze gebruiken lineaire probes om de belangrijkheid van concepten per taak te kwantificeren.

C. Geometrische en Statistische Analyse

De auteurs onderzoeken de statistische eigenschappen van de geleerde dictionary:

Co-activatie: Hoe vaak worden concepten samen geactiveerd?
Geometrie: Zijn de concepten orthogonaal (zoals LRH voorspelt) of vertonen ze clustering, anisotropie en antipodale paren?
Token-geometrie: Ze analyseren de lokale structuur van patch-tokens binnen een enkele afbeelding (via PCA) om te zien of deze op een gladde, laag-dimensionale manifold liggen.

D. Theoretische Formulering: Minkowski Representation Hypothesis (MRH)

Gebaseerd op de observaties, formuleren de auteurs een nieuwe hypothese die de LRH uitbreidt. Ze koppelen dit aan de theorie van Gärdenfors' conceptuele ruimtes en de mechanismen van Multi-Head Attention.

3. Belangrijkste Resultaten

A. Functionele Specialisatie van Concepten

Verschillende taken gebruiken fundamenteel verschillende families van concepten:

Classificatie: Maakt gebruik van "Elsewhere"-concepten. Deze concepten activeren sterk op tokens buiten het object, maar hun activatie is causaal afhankelijk van de aanwezigheid van het object ergens in de afbeelding. Dit implementeert een vorm van "geleerde ontkenning" (niet het object, maar het object bestaat).
Segmentatie: Verlaat zich op grens- of randconcepten (border concepts). Deze vormen een coherent, laag-dimensionaal subruimte en activeren specifiek langs objectcontouren.
Dieptheschatting: Gebruikt drie distincte families van concepten die corresponderen met monokulaire dieptecues uit de visuele neurowetenschap:
- Projectieve geometrie (verdwijnlijnen).
- Schaduwgebaseerde cues (lichtgradiënten).
- Frequentie-overgangen (textuurverschillen).
Token-Specificiteit: Er zijn concepten die uitsluitend op specifieke token-types activeren. Vooral Register-tokens (die in DINOv2 worden gebruikt voor globale context) coderen voor globale eigenschappen zoals belichting, bewegingsonscherpte en lens-effecten, terwijl er slechts één concept is dat puur op de cls-token activeert.

B. Geometrie en Statistiek: Meer dan alleen Sparsiteit

De analyse toont aan dat de representaties niet voldoen aan het ideale beeld van een Grassmannian frame (maximaal orthogonaal):

Deel-dichtheid: Hoewel de meeste concepten spaars zijn, zijn er dichte concepten die over de hele dataset actief zijn (voornamelijk gerelateerd aan positie).
Anisotropie en Clustering: De dictionary toont zwaardere staarten in de inproduct-verdeling en een scherpe afname in het singuliere-waarden-spectrum. Dit wijst op geclusterde coherentie en taak-specifieke subruimtes.
Antipodale Paren: Er worden veel paren gevonden die bijna tegengesteld zijn ( $D_i \approx -D_j$ ), wat suggereert dat het model semantisch tegenovergestelde features (bijv. "links" vs "rechts") codeert langs dezelfde as maar met tegengestelde polariteit.
Lokale Connectiviteit: Zelfs na het verwijderen van positie-informatie, vormen de token-embeddings binnen een afbeelding een gladde, lokaal verbonden manifold. Dit kan niet alleen worden verklaard door positie-encoding.

C. De Minkowski Representation Hypothesis (MRH)

De auteurs stellen voor dat tokens niet lineaire richtingen zijn, maar convexe mengsels van archetypische landmarks.

Mechanisme: Multi-head attention berekent per head een convexe combinatie van waarde-vectoren. De uiteindelijke output is de som van deze convexe hulls. Wiskundig gezien is dit een Minkowski som van convexe polytopen.
Concepten: Een concept is geen richting, maar een gebied (convex polytoom) rondom een archetypisch punt (bijv. "konijn" is een gebied binnen het domein van "dieren").
Niet-identificeerbaarheid: Een belangrijke theoretische bevinding is dat de decompositie van een Minkowski som in zijn componenten (de individuele polytopen) niet uniek is. Dit betekent dat het onmogelijk is om de exacte genererende factoren te herleiden uit alleen de eindactivaties zonder kennis van de architectuur (zoals attention weights).

4. Bijdragen

Grootste Interactieve Demo: Het vrijgeven van een dictionary van 32.000 concepten voor DINOv2, de grootste tot nu toe voor een visueel foundation model, toegankelijk via DinoVision.
Ontdekking van "Elsewhere"-Concepten: Het identificeren van een nieuw type concept dat causaal afhankelijk is van een object maar fysiek op andere plekken in de afbeelding activeert, wat de interpretatie van heatmaps fundamenteel verandert.
Empirische Validatie van MRH: Het leveren van bewijs dat representaties in ViT's beter worden beschreven door convexe geometrie (Minkowski sommen) dan door strikte lineaire sparsiteit.
Theoretisch Kader: Het formaliseren van hoe Multi-Head Attention natuurlijk leidt tot Minkowski-geometrie en het bespreken van de implicaties voor interpretability (bijv. waarom "steering" beperkingen heeft).

5. Betekenis en Implicaties

Interpretability: De studie waarschuwt dat het simpelweg kijken naar de richting van een concept (zoals in TCAV) onvolledig kan zijn. Concepten zijn gebieden, en hun activatie kan causaal gekoppeld zijn aan tokens waar ze niet fysiek verschijnen ("Elsewhere").
Steering en Editing: Het "sturen" van een model (bijv. om een object te veranderen) moet rekening houden met de grenzen van de convexe polytoom. Het verplaatsen van een activatie te ver langs een vector kan leiden tot onrealistische representaties (off-manifold), wat verklaart waarom sturing vaak plateauert of terugdraait.
Toekomstig Onderzoek: De auteurs suggereren dat interpretability-methoden zich moeten richten op de architecturale structuur (attention weights, lagen) om de niet-unieke decompositie van Minkowski-sommen op te lossen, in plaats van alleen te kijken naar de statische activatieruimte.

Kortom, dit paper verschuift het paradigma van het zien van neurale netwerken als verzamelingen van lineaire vectoren naar een model van convexe, archetypische ruimtes die worden samengesteld via Minkowski-sommen, wat een dieper en nauwkeuriger beeld geeft van hoe moderne visuele modellen de wereld begrijpen.