TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

TraceVision introduceert een baanbrekend vision-language model dat menselijke visuele aandachtstrajectories integreert via een Trajectory-aware Visual Perception-module en een drie-fasen trainingspipeline, waardoor het state-of-the-art prestaties bereikt in ruimtelijk begrip, trajectvoorspelling en interpreteerbare beeldanalyse.

Fan Yang, Shurong Zheng, Hongyin Zhao, Yufei Zhan, Xin Li, Yousong Zhu, Chaoyang Zhao Ming Tang, Jinqiao Wang

Gepubliceerd 2026-02-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je naar een foto kijkt en iemand vraagt: "Wat zie je?" Een gewone computer ziet de hele foto als één grote, vage vlek. Hij zegt misschien: "Ik zie een voetbalwedstrijd." Maar hij weet niet precies waar je naar kijkt of in welke volgorde je je ogen hebt bewogen.

TraceVision is een slimme nieuwe computer die doet alsof hij een mens is. Het kijkt niet alleen naar de foto, maar begrijpt ook hoe je met je ogen over de foto hebt glijden.

Hier is een uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Wazige" Camera

Stel je voor dat je een foto van een drukke markt bekijkt. Een gewone AI kijkt er als een vliegende drone boven: hij ziet alles tegelijk, maar mist de details. Hij ziet "een markt", maar hij ziet niet dat je eerst naar de fruitkraam keek, toen naar de man met de hoed, en toen naar de hond.

Mensen doen dit anders. Onze ogen bewegen als een dans of een stippenlijn. We scannen, stoppen even bij iets interessants, en bewegen dan verder. Bestaande computers kunnen die dans niet volgen. Ze raken vaak afgeleid door de verkeerde dingen.

2. De Oplossing: TraceVision (De "Oogvolger")

TraceVision is als een slimme gids die naast je staat. Hij heeft een speciaal apparaatje dat precies ziet waar je vinger of oog over de foto beweegt.

  • De "Dans" van de ogen: TraceVision ziet de lijn die je oog trekt niet als een saaie reeks cijfers, maar als een verhaal. Hij denkt: "Ah, deze lijn gaat van de boom naar de vogel, dus de vogel is belangrijk!"
  • De Schaar (Geometrische Vereenvoudiging): Menselijke oogbewegingen zijn vaak onrustig en vol kleine trillingen (net als als je met een trillende hand tekent). TraceVision gebruikt een slimme "schaaar" die de onnodige trillingen weghaalt, maar de belangrijke bochten en hoeken behoudt. Het is alsof je een rommelig krabbel-lijntje omzet in een strakke, duidelijke route op een kaart.

3. Hoe Het Werkt: De Twee-Weg Snelweg

In de paper wordt een module beschreven die "TVP" heet. Je kunt dit zien als een twee-weg snelweg tussen twee vrienden:

  1. De Foto-Vriend: Zegt: "Hier is een rode auto."
  2. De Oog-Lijn-Vriend: Zegt: "Ik heb net naar die plek gekeken!"

Normaal praten deze twee niet goed met elkaar. TraceVision zorgt ervoor dat ze constant met elkaar communiceren. De oog-lijn helpt de foto-vriend om te focussen op de juiste plek, en de foto helpt de oog-lijn om te begrijpen wat er eigenlijk te zien is. Het is alsof ze samen een puzzel oplossen in plaats van elk hun eigen ding te doen.

4. De Leermeester: De "RILN" Dataset

Om deze computer slim te maken, hebben de onderzoekers een enorme hoeveelheid oefenmateriaal gemaakt, genaamd RILN.

  • Stel je voor dat je een kind leert lezen. Je geeft het niet alleen woorden, maar je wijst ook met je vinger naar de letters terwijl je voorleest.
  • TraceVision heeft duizenden voorbeelden gekregen waar een mens naar een foto kijkt, met een vinger die over het scherm glijdt, en tegelijkertijd vertelt wat hij ziet.
  • De computer heeft hierdoor geleerd: "Als de lijn hierheen gaat, moet ik praten over dit object."

5. Wat Kan Het Nu?

TraceVision is niet alleen slim in het kijken, maar ook in het doen:

  • Het kan beschrijven: "Kijk naar deze lijn," zegt jij, en de computer beschrijft precies wat er op die lijn te zien is.
  • Het kan tekenen: "Beschrijf deze auto," zegt jij, en de computer tekent een lijn over de auto om aan te geven waar hij naar keek.
  • Het kan knippen: Het kan precies het stukje van de foto "uitsnijden" (segmenteren) waar jij naar keek, alsof het een schaar is die precies langs de oogbeweging loopt.

Samenvattend

TraceVision is als het geven van ogen en een vinger aan een computer. In plaats van alleen naar een foto te staren, begrijpt het de reis die je ogen hebben gemaakt. Hierdoor praat het niet alleen over "wat" er te zien is, maar ook over "waar" en "hoe" je het hebt bekeken, precies zoals een mens dat doet.

Het maakt computers niet alleen slimmer, maar ook begrijpelijker, omdat we nu precies kunnen zien waar ze naar kijken en waarom ze dat zeggen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →