Multi-Context Fusion Transformer for Pedestrian Crossing Intention Prediction in Urban Environments

Dit paper introduceert de Multi-Context Fusion Transformer (MFT), een nieuw model dat diverse contextuele factoren zoals gedrag, omgeving en voertuigbeweging integreert via een progressieve fusiestrategie om de intentie van voetgangers bij het overstappen in stedelijke omgevingen nauwkeuriger te voorspellen dan bestaande methoden.

Yuanzhe Li, Hang Zhong, Steffen Müller

Gepubliceerd 2026-03-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zelfrijdende auto bestuurt, maar in plaats van een stuurwiel heb je een superintelligente "hersenen" die moet beslissen: Zal die voetganger straks oversteken of niet?

Dit is een van de moeilijkste puzzels voor autonome voertuigen. Mensen zijn onvoorspelbaar. Soms kijken ze je aan, soms kijken ze naar hun telefoon, soms staat er een stopbord, en soms rijdt er een andere auto voorbij.

Dit artikel introduceert een nieuwe oplossing, genaamd MFT (Multi-Context Fusion Transformer). Laten we dit uitleggen alsof het een detective is die een zaak oplost, in plaats van een complexe wiskundige formule.

1. De Detective en de Vier Getuigen

Vroeger probeerden computers alleen te kijken naar de voetganger zelf (zoals een detective die alleen naar één getuige kijkt). Dat werkt niet goed, want de voetganger kan een onschuldig gezicht trekken terwijl hij toch overstapt.

De MFT-detective is slimmer. Hij verzamelt vier verschillende soorten getuigen die allemaal een stukje van de waarheid vertellen:

  1. Het Gedrag van de Voetganger (De "Acteur"): Kijkt de voetganger naar de auto? Knikt hij? Winkt hij? (Net als een acteur die zijn intenties verraadt door gebaren).
  2. De Locatie (De "Positie"): Waar staat de voetganger precies? Loopt hij langs de kant van de weg of staat hij al op de oversteekplaats?
  3. De Auto (De "Rijder"): Wat doet de auto zelf? Remt hij af? Dat kan een teken zijn dat de voetganger mag oversteken.
  4. De Omgeving (De "Straat"): Is er een stoplicht? Is er een zebrapad? Is het een drukke kruising of een rustige parkeerplaats?

2. De "Koffiegesprek"-Strategie (Fusie)

De echte kracht van MFT zit in hoe deze vier getuigen met elkaar praten. Het is alsof ze eerst in aparte kamers zitten en daarna samen aan één grote tafel gaan zitten.

  • Stap 1: Eigen Kamer (Intra-Context): Eerst luistert elke getuige naar zichzelf. De "Acteur" denkt na over zijn eigen gebaren. De "Straat" denkt na over de verkeerslichten. Ze maken een samenvatting van hun eigen verhaal.
  • Stap 2: De Grote Tafel (Cross-Context): Nu komen ze samen. De "Acteur" zegt: "Ik knik, maar de 'Straat' zegt dat het rood licht is." De "Rijder" zegt: "Ik rem af."
    • Hier gebeurt magie: De computer gebruikt een Transformer (een slimme AI-techniek) om te beslissen welke getuige het belangrijkst is in dat specifieke moment.
    • Soms is de "Straat" (het stoplicht) de belangrijkste. Soms is het de "Acteur" (die naar de auto kijkt).
  • Stap 3: De Chef-Detective (De CLS-token): Er is één speciale "hoofdgetuige" (de CLS-token) die al deze gesprekken luistert. Deze hoofdgetuige pakt de beste stukjes van elk verhaal en maakt er één duidelijk oordeel van: "Ja, oversteken" of "Nee, blijven staan".

3. Waarom is dit beter dan de oude methoden?

Oude methoden probeerden vaak naar de hele straat te kijken (alle pixels van de camera), alsof je een hele film moet bekijken om te weten of iemand overstapt. Dat kost veel rekenkracht en is traag.

De MFT-methode is als een samenvatting van de film.

  • Het kijkt niet naar elke pixel, maar naar de betekenis (numerieke gegevens): "Is het licht rood?", "Kijkt hij?".
  • Voordeel: Het is veel sneller, lichter (gebruikt minder computerkracht) en werkt zelfs als de beelden wazig zijn of als het regent. Het is alsof je een scherpzinnige detective hebt die de feiten kent, in plaats van iemand die naar een wazige foto staart.

4. De Resultaten: Een Winnaar

De auteurs hebben hun detective getest op echte datasets (JAAD en PIE).

  • Resultaat: De MFT-detective had in 93% van de gevallen gelijk op de ene dataset en 90% op de andere.
  • Vergelijking: Hij deed het beter dan de beste andere methoden die er nu zijn.
  • Snelheid: Hij is ook nog eens supersnel en heeft een heel klein "geheugen" nodig, wat perfect is voor een auto die in real-time moet beslissen.

Samenvattend

Stel je voor dat je een zelfrijdende auto bouwt. In plaats van een zware, trage camera die alles moet analyseren, geef je de auto een slim team van vier specialisten die samenwerken. Ze praten met elkaar, luisteren naar de context (straat, auto, gedrag) en geven de bestuurder een duidelijk advies.

Dit artikel laat zien dat door te kijken naar wat er gebeurt (de context) in plaats van alleen naar hoe het eruit ziet (de beelden), we veiliger en slimmere zelfrijdende auto's kunnen maken. Het is de overstap van "kijken" naar "begrijpen".

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →