Temporal Misalignment Attacks against Multimodal Perception in Autonomous Driving

Dit paper introduceert 'DejaVu', een aanval die de integriteit van tijdsynchronisatie in multimodale autonome voertuigsystemen manipuleert door subtiel te vertraagde camera- of LiDAR-data, wat leidt tot een drastische verslechtering van objectdetectie en -tracking en ernstige veiligheidsrisico's zoals botsingen en phantom braking veroorzaakt.

Md Hasan Shahriar, Md Mohaimin Al Barat, Harshavardhan Sundar, Ning Zhang, Naren Ramakrishnan, Y. Thomas Hou, Wenjing Lou

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De "Deja Vu"-aanval: Waarom zelfrijdende auto's soms in de war raken

Stel je een zelfrijdende auto voor als een zeer slimme, maar soms verwarde kok. Om een perfecte maaltijd (veilig rijden) te bereiden, gebruikt deze kok twee belangrijke ingrediënten:

  1. De Camera: Dit is het oog. Het ziet kleuren, tekens en details, maar kan diepte slecht inschatten.
  2. De LiDAR: Dit is het meetinstrument. Het ziet de wereld als een 3D-puntenwolk en meet afstanden perfect, maar ziet geen kleuren of tekens.

Om veilig te rijden, moet de auto deze twee ingrediënten precies op hetzelfde moment combineren. Dit noemen ze "multimodale fusie". Als de camera zegt "er is een boom" en de LiDAR zegt "die boom is 10 meter weg", moeten deze twee berichten uit dezelfde seconde komen.

Het probleem: De "Deja Vu"-aanval

De onderzoekers van dit papier hebben een nieuwe manier bedacht om deze auto's te laten struikelen, zonder de camera of LiDAR fysiek kapot te maken. Ze noemen hun aanval DEJAVU.

Stel je voor dat de auto een orkest is. De camera is de viool en de LiDAR is de trompet. Als ze perfect synchroon spelen, klinkt het als muziek. Maar wat gebeurt er als de dirigent (de software die de tijdstippen regelt) een beetje gek wordt?

Bij de DEJAVU-aanval doet een hacker precies dat: hij speelt niet met de muziek zelf (de beelden of metingen blijven hetzelfde), maar hij verandert de tijd waarop de noten worden gespeeld.

Hoe werkt het? (De Analogie van de Verkeerslichten)

Stel je voor dat je op een kruising staat met een vriend. Jij kijkt naar links (camera) en je vriend kijkt naar rechts (LiDAR). Jullie moeten samen beslissen of het veilig is om over te steken.

  • Normaal: Jullie kijken tegelijkertijd. Jij ziet een auto, je vriend meet de afstand. Samen beslissen jullie: "Nee, wachten."
  • De Aanval: De hacker is een boze dirigent die in jullie hoofd fluistert. Hij zegt tegen je vriend (de LiDAR): "Je hebt die auto 5 seconden geleden gezien, niet nu!"
    • Jij ziet de auto nu.
    • Je vriend denkt dat hij de auto 5 seconden geleden zag.
    • De auto van je vriend is nu verouderd. In die 5 seconden is de echte auto al lang voorbij.
    • Jullie software denkt: "Oh, de auto is weg, we kunnen oversteken!"
    • Resultaat: Een ongeluk. De auto rijdt recht op de echte auto af.

Of het omgekeerde: Je vriend denkt dat hij een auto nu ziet, terwijl die al lang weg is. De auto remt plotseling voor een spookauto (een "phantom braking"), wat kan leiden tot een achtervolgingsongeval.

Wat ontdekten de onderzoekers?

Ze hebben ontdekt dat verschillende taken in de auto heel verschillend reageren op deze tijdsverwarring:

  1. Het zien van objecten (Detectie): De auto is hier extreem afhankelijk van de LiDAR. Als je de LiDAR-data zelfs maar één fractie van een seconde vertraagt, ziet de auto objecten niet meer of op de verkeerde plek. Het is alsof je je meetlat een seconde te laat uitleest; de auto denkt dat de wereld stil staat terwijl hij beweegt.

    • Gevolg: De auto mist auto's, fietsers of voetgangers volledig.
  2. Het volgen van objecten (Tracking): Hier is de auto juist heel afhankelijk van de Camera. Om te weten of een voetganger naar links of rechts loopt, heeft de auto de continue beelden van de camera nodig. Als de camera-data vertraagt, raakt de auto de draad kwijt.

    • Gevolg: De auto denkt dat een voetganger twee verschillende mensen zijn, of hij verliest een auto uit het oog.

Hoe hebben ze dit getest?

Ze hebben dit niet alleen op papier gedaan, maar in twee echte omgevingen:

  1. Een testbaan met computers: Ze lieten een computerauto rijden in een gesimuleerde wereld en lieten de hacker de tijd manipuleren. De auto reageerde precies zoals voorspeld: hij botste of remde voor niets.
  2. Een volledige simulatie (Autoware): Ze gebruikten professionele software die ook in echte zelfrijdende auto's wordt gebruikt. Ook hier zag je dat de auto in gevaarlijke situaties terechtkwam, zoals een frontale botsing of paniekremmen.

Wat betekent dit voor de toekomst?

De boodschap van dit onderzoek is helder: Synchronisatie is net zo belangrijk als de sensoren zelf.

Tot nu toe dachten mensen dat als je goede camera's en LiDAR's had, je veilig was. Dit papier laat zien dat als de "horloges" van die sensoren niet perfect synchroon lopen (of als een hacker ze kan verdraaien), het hele systeem instort.

De oplossing?
De onderzoekers suggereren dat we in de toekomst:

  • Betere beveiliging moeten toevoegen aan de tijdsynchronisatie (zodat hackers de tijd niet kunnen vervalsen).
  • Systemen moeten bouwen die kunnen merken als de tijd "raar" loopt en dan veiligheidsmaatregelen nemen (zoals langzamer rijden of stoppen).
  • Meer vertrouwen moeten hebben in de combinatie van alle sensoren, zodat als één sensor in de war raakt, de anderen het nog wel goed kunnen doen.

Kortom: DEJAVU is een waarschuwing dat zelfrijdende auto's niet alleen "slim" moeten zijn, maar ook "op de hoogte" moeten blijven van de tijd, anders kunnen ze in een illusie terechtkomen met dodelijke gevolgen.