AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

Het paper introduceert AutoTraces, een autoregressief vision-language-trajectmodel dat de redeneercapaciteiten van grote taalmodellen combineert met een innovatieve tokenisatie van trajecten en automatische chain-of-thought-generatie om nauwkeurige en generaliseerbare voorspellingen van menselijke bewegingen in complexe omgevingen te maken.

Teng Wang, Yanting Lu, Ruize Wang

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt die door een drukke supermarkt loopt, zonder tegen mensen aan te lopen of in de weg te staan. Dit is een enorme uitdaging voor kunstmatige intelligentie. De meeste robots kijken alleen naar de cijfers (waar is de persoon nu? waar moet hij heen?) en proberen een route te berekenen. Maar mensen zijn niet alleen cijfers; we gedragen ons op basis van sociale regels, we kijken om ons heen en we reageren op wat er gebeurt.

Deze paper introduceert AutoTraces, een slimme nieuwe manier om robots te leren hoe ze zich in een drukke wereld moeten gedragen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Robot als "Verteller" in plaats van "Rekenmachine"

Vroeger probeerden robots hun route te berekenen als een strakke wiskundige formule. AutoTraces doet het anders. Het gebruikt een Groot Taalmodel (LLM) – hetzelfde type "brein" dat gebruikt wordt voor chatbots zoals ChatGPT – maar dan getraind om niet alleen tekst, maar ook beweging te begrijpen.

  • De Analogie: Stel je voor dat een oude robot een rekenmachine is die alleen "X=5, Y=3" kan zeggen. AutoTraces is als een ervaren verteller die een verhaal schrijft. In plaats van alleen getallen, "schrijft" de robot een verhaal over waar hij naartoe gaat, stap voor stap.

2. De Magische "Puntjes" (Tokenisatie)

Het grootste probleem met taalmodellen is dat ze niet goed zijn in het omzetten van getallen (coördinaten) in beweging. AutoTraces lost dit op met een slim trucje: Puntjes.

  • Hoe het werkt: In plaats van de robot te laten zeggen "Ga 1,5 meter naar rechts", leert het model om een speciaal symbool te gebruiken: <punt>.
  • De Creatieve Vergelijking: Denk aan een schatkaart. Vroeger moest je de exacte coördinaten (50.123, 12.456) opschrijven. AutoTraces plakt een sticker met een puntje op de kaart. Het model "weet" dat dit puntje staat voor een specifieke locatie, net zoals het woord "hond" staat voor een dier. Het model leert dan niet alleen waar het puntje is, maar ook hoe je er komt. Dit maakt het veel sneller en accurater dan het uitspellen van getallen.

3. De "Denk-stap" (Chain-of-Thought)

Een robot die alleen naar een video kijkt, ziet misschien alleen beelden. AutoTraces leert de robot om te denken voordat hij beweegt.

  • De Analogie: Stel je voor dat je door een drukke kruising loopt. Je denkt niet alleen "links, rechts", maar je denkt: "Oh, die persoon loopt snel, ik moet wachten. Die groep staat in de weg, ik ga eromheen."
  • De Innovatie: AutoTraces gebruikt een andere AI om automatisch dit soort gedachten te genereren. De robot leert dus niet alleen wat hij moet doen, maar ook waarom. Hij analyseert de video, ziet obstakels en bedenkt een plan: "Eerst rechts om die persoon te vermijden, dan rechtdoor." Dit gebeurt zonder dat mensen handmatig moeten uitleggen wat de robot moet denken.

4. Het "Vloeiend Schrijven" van Routes (Autoregressief)

Veel andere systemen proberen de hele route in één keer te voorspellen (als een foto van de hele route). AutoTraces schrijft de route letterlijk één lettertje (of puntje) per keer.

  • De Vergelijking:
    • Oude methode: Je probeert een heel gedicht in één keer te onthouden en op te schrijven. Als je één woord verkeerd zet, is het hele gedicht fout.
    • AutoTraces: Je schrijft het gedicht regel voor regel. Als je een regel hebt geschreven, kijk je terug en beslis je wat de volgende regel moet zijn. Als je merkt dat er plotseling een persoon in je weg loopt, pas je de volgende regel direct aan.
    • Dit maakt de robot veel flexibeler. Hij kan een route van 5 seconden of 50 seconden voorspellen, afhankelijk van wat er gevraagd wordt, en past zich direct aan aan veranderingen.

5. Waarom is dit zo goed?

De tests tonen aan dat AutoTraces veel beter presteert dan de huidige beste methoden, vooral in twee situaties:

  1. Op lange termijn: Hij kan veel verder in de toekomst kijken zonder de draad kwijt te raken.
  2. In nieuwe omgevingen: Als je de robot meeneemt van een binnenplein naar een buitenpark, hoeft hij niet opnieuw te leren. Omdat hij "redeneert" in plaats van alleen cijfers te onthouden, begrijpt hij de logica van de situatie en past hij zich direct aan.

Kort samengevat:
AutoTraces is als het geven van een verstandig, redenerend brein aan een robot. In plaats van een strakke rekenmachine te zijn, wordt de robot een sociale verteller die de wereld om hem heen observeert, denkt over wat hij moet doen, en zijn route stap voor stap "schrijft" alsof hij een verhaal bedenkt. Hierdoor loopt hij veiliger en natuurlijker door onze drukke, menselijke wereld.