DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Het artikel introduceert DRIFT, een transformer-model dat door middel van een dubbel-pad architectuur lokale en globale context uit 4D-radar-puntenwolkdata fuseert om de prestaties bij objectdetectie en vrije-rijbaan-schatting voor autonoom rijden aanzienlijk te verbeteren.

Siqi Pei, Andras Palffy, Dariu M. Gavrila

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🚗 De "Twee-Ogen" Methode voor Autonomisch Rijden

Stel je voor dat een zelfrijdende auto probeert te zien wat er om hem heen gebeurt. Normaal gesproken gebruiken ze dure laserscanners (LiDAR) of camera's. Maar laserscanners zijn duur en camera's worden blind bij regen of mist.

Daarom willen veel bedrijven overstappen op radar. Radar is goedkoop, werkt perfect in slecht weer en geeft zelfs snelheidsinformatie. Er is echter één groot nadeel: radarbeelden zijn erg "ruisig" en heel erg leeg.

De Vergelijking:

  • Een LiDAR-beeld is als een foto gemaakt met een hoge-resolutie camera: je ziet elke steen op de weg en elk detail van een voetganger.
  • Een radar-beeld is als een foto gemaakt met een oude, korrelige faxmachine. Je ziet misschien een paar stippen waar een auto zou moeten zijn, maar de rest is zwart. Soms zie je zelfs maar één stipje waar een voetganger loopt. Als je alleen naar dat ene stipje kijkt, weet je niet of het een voetganger, een vogel of een stukje vuil is.

🧠 Het Probleem: "Kijk niet alleen naar je neus"

Omdat radarbeelden zo leeg zijn, werkt de oude manier van kijken niet meer.

  • De oude manier: Kijk alleen naar de stipjes die direct naast elkaar liggen (lokale informatie). Bij radar is dat vaak niet genoeg. Je mist de context.
  • De nieuwe manier: Je moet ook kijken naar het hele plaatje (globale informatie). Waar staat de auto ten opzichte van de weg? Is er een rijbaan?

🚀 De Oplossing: DRIFT (De Twee-Ogen-Strategie)

De onderzoekers van de TU Delft hebben een nieuw systeem bedacht dat ze DRIFT noemen. Ze gebruiken een slimme truc: ze laten de auto niet met één, maar met twee verschillende "ogen" tegelijk kijken.

Stel je voor dat DRIFT twee detectives zijn die samenwerken:

  1. Detective "Punt" (De Detail-Expert):

    • Deze kijkt naar de individuele stipjes (de punten).
    • Hij is goed in het zien van kleine details: "Hey, dit stipje beweegt snel!" of "Dit stipje heeft een bepaalde vorm."
    • Zwakte: Hij ziet het grote plaatje niet. Hij denkt misschien dat een losse stip een voetganger is, terwijl het alleen maar een reflectie van een bord is.
  2. Detective "Pijler" (De Context-Expert):

    • Deze kijkt naar het hele beeld in grote blokken (zoals een raster of "pillaren").
    • Hij is goed in het zien van de omgeving: "Ah, hier is een rijbaan, en daar staat een groepje stippen die samen een auto vormen."
    • Zwakte: Hij mist de fijne details. Hij ziet misschien wel dat er iets is, maar weet niet precies wat het is.

🤝 De Magische Koppel: "Feature Sharing"

In oudere systemen werkten deze twee detectives vaak apart of pas aan het einde samen. Dat werkt niet optimaal.

DRIFT introduceert een nieuwe manier van communiceren:
Tijdens het hele proces wisselen de detectives voortdurend informatie uit.

  • Detective "Pijler" fluistert tegen Detective "Punt": "Kijk, die stipjes zitten op een rijbaan, dus het is waarschijnlijk een auto, geen vogel."
  • Detective "Punt" fluistert terug: "Bedankt, maar die stipjes bewegen heel snel, dus het is een fiets, geen auto."

Ze gebruiken hiervoor een slimme technologie genaamd Transformers (dezelfde technologie die ook in chatbots zit). Dit zorgt ervoor dat ze niet alleen naar hun eigen stukje kijken, maar naar de hele wereld om hen heen.

🏆 Wat levert dit op?

Doordat deze twee detectives voortdurend met elkaar overleggen, wordt het beeld veel scherper:

  • Betere detectie: Ze vinden voetgangers en fietsers veel sneller, zelfs als ze ver weg zijn of als het regent.
  • Minder fouten: Ze verwarren geen ruis (stipjes van regen) voor echte mensen.
  • Snelheid: Het systeem is zo efficiënt dat het in real-time werkt (binnen 20 milliseconden), wat essentieel is voor een auto die 100 km/u rijdt.

📊 De Resultaten in het Kort

De onderzoekers hebben hun systeem getest op echte data uit Den Haag (het View-of-Delft dataset).

  • Vroeger: De beste systemen haalden ongeveer 45% nauwkeurigheid.
  • Nu met DRIFT: Ze halen 52,6%.
  • Vooral bij kleine objecten (voetgangers en fietsers) is de verbetering enorm.

Conclusie

Kortom: DRIFT is als het geven van twee verschillende brillen aan een zelfrijdende auto. De ene bril ziet de details, de andere ziet de context. Door ze voortdurend met elkaar te laten praten via slimme software, ziet de auto de wereld veel duidelijker, zelfs als het weer slecht is en de radarbeelden vaag zijn. Dit maakt zelfrijdende auto's veiliger en goedkoper.