ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een auto bestuurt, maar in plaats van een camera die naar de bestuurder kijkt (wat privacyproblemen kan geven) of een microfoon die luistert (wat lastig is bij lawaai), gebruiken we een soort "onzichtbare radar-sonar". Deze radar werkt met een speciale technologie genaamd IR-UWB. Het is als een supergevoelige spookjager die niet ziet wat er gebeurt, maar wel voelt hoe de lucht beweegt door de bewegingen van de bestuurder.

Het probleem is dat deze technologie tot nu toe twee grote struikelblokken had:

Er was geen goede "oefenboek" (dataset) met echte voorbeelden van afgeleide bestuurders in echte auto's.
De slimme computerprogramma's (AI) die we gebruiken om beelden te herkennen, waren niet gemaakt voor deze radar-data. Het was alsof je probeert een vierkante puzzelstuk in een ronde gleuf te duwen.

De auteurs van dit paper, ALERT, hebben deze twee problemen opgelost. Hier is hoe ze dat deden, vertaald naar alledaagse taal:

1. Het Grootste Oefenboek: De ALERT-dataset

Stel je voor dat je een kind wilt leren rijden, maar je hebt alleen maar foto's van een racebaan in een computerspel. Dat helpt niet echt. Je hebt echte ervaring nodig.

De onderzoekers hebben een nieuwe database gemaakt, genaamd ALERT.

Wat is het? Een verzameling van meer dan 10.000 radar-opnames van echte mensen in een echte auto.
Wat doen ze? Ze hebben 7 verschillende situaties opgenomen: normaal rijden, ontspannen (handen van het stuur), hoofdknikken (slaperig), roken, drinken, bedieningspaneel gebruiken en met de telefoon spelen.
Waarom is dit speciaal? Veel andere studies deden dit in een simulator (een virtuele auto). Maar in een echte auto trilt de auto, zijn er hobbels op de weg en verandert het geluid. De ALERT-dataset vangt al die echte, rommelige realiteit op, waardoor de AI echt goed leert.

2. De Slimme Vertaler: ISA-ViT

Nu hebben we de data, maar de computer begrijpt het nog niet goed. De beste AI-modellen voor het herkennen van beweging zijn Vision Transformers (ViT). Deze modellen zijn getraind op foto's van katten, auto's en mensen. Ze verwachten vierkante foto's van een vaste grootte.

Radar-data ziet er echter niet uit als een vierkante foto. Het is een lang, smal stukje data dat varieert in lengte afhankelijk van hoe lang je kijkt.

Het oude probleem: Als je deze radar-data gewoon "oprekt" of "inkrimpt" om hem op de foto te laten passen (zoals het veranderen van de grootte van een foto in Photoshop), dan gaat er belangrijke informatie verloren. Het is alsof je een gedicht in het Nederlands vertaalt naar het Chinees door alleen de eerste letter van elk woord te gebruiken; de betekenis is weg.
De oplossing (ISA-ViT): De onderzoekers hebben een nieuwe methode bedacht, ISA-ViT (Input-Size-Agnostic Vision Transformer).
- De analogie: Stel je voor dat je een lange, rechte loper (de radar-data) hebt die je op een vierkante vloer wilt leggen. In plaats van de loper te knippen of te rekken (wat de patronen verstoort), snijden ze de loper in stukjes van precies de juiste maat en leggen ze die netjes in een vierkant patroon. Ze passen de "ruimte-instructies" (de posities) van de AI aan zodat het begrijpt dat stukje 1 en stukje 2 naast elkaar liggen, ook al zijn ze anders groot dan op een foto.
- Het resultaat: De AI kan nu de radar-data lezen zonder dat er informatie verloren gaat, en hij gebruikt zijn bestaande kennis van "patronen herkennen" om de bestuurder te analyseren.

3. Twee Ogen in plaats van Eén: Domein Fusie

De radar geeft twee soorten informatie:

Afstand (Range): Hoe ver is de hand van de bestuurder? (Ruimtelijk)
Snelheid (Frequentie): Hoe snel beweegt de hand? (Tempo)

Soms is het moeilijk om te weten of iemand een sigaret rookt of een drankje drinkt als je alleen naar de afstand kijkt. Maar als je ook naar de snelheid kijkt, zie je het verschil.

De oplossing: Ze hebben een systeem gemaakt dat beide soorten informatie tegelijk bekijkt en samenvoegt. Het is alsof je een schilderij bekijkt met twee verschillende brillen: één die de vorm ziet en één die de beweging ziet. Samen krijg je een veel duidelijker beeld.

Wat is het resultaat?

Dankzij deze nieuwe dataset en de slimme vertaler (ISA-ViT) is het systeem veel beter geworden:

Het herkent afgeleide bestuurders met een nauwkeurigheid van 97,35%.
Het is 22% nauwkeuriger dan de vorige beste methoden.

Waarom is dit belangrijk?

Dit is een stap in de richting van auto's die echt veilig zijn. In plaats van dat de auto je filmt (wat je privacy schendt) of luistert (wat lastig is bij lawaai), "voelt" de auto wat je doet. Als de auto merkt dat je aan je telefoon zit of slaperig bent, kan hij waarschuwen of ingrijpen om een ongeluk te voorkomen.

Kortom: Ze hebben een nieuwe, echte oefenmethode bedacht en een slimme vertaler gemaakt zodat computers beter kunnen voelen wat bestuurders doen, zonder hun privacy te schenden.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Het paper adresseert het wereldwijde probleem van afgeleide rijgedrag (distracted driving), wat een significante oorzaak is van dodelijke verkeersongevallen. Hoewel er veel onderzoek is gedaan naar Driver Activity Recognition (DAR) met behulp van camera's, geluidssignalen en WiFi, hebben deze methoden beperkingen zoals privacyproblemen (camera's), gevoeligheid voor omgevingsruis (audio) en interferentie (WiFi).

Impulse Radio Ultra-Wideband (IR-UWB) radar biedt een veelbelovend alternatief vanwege zijn robuustheid tegen interferentie, lage energieverbruik en inherente privacy (geen beeld- of geluidsdata). Echter, de adoptie van IR-UWB voor DAR wordt gehinderd door twee fundamentele uitdagingen:

Gebrek aan grote, realistische datasets: Bestaande datasets zijn vaak beperkt tot gesimuleerde omgevingen of focussen op slechts één type afgeleid gedrag. Simulaties missen cruciale real-world factoren zoals wegtrillingen en voertuigvibraties, wat de generaliseerbaarheid beperkt.
Compatibiliteitsproblemen met Vision Transformers (ViT): State-of-the-art ViT-modellen zijn getraind op vaste beeldmaten (bijv. 224x224). Het toepassen van deze modellen op UWB-data, die variabele en vaak niet-kwadratische afmetingen hebben, vereist herschaling (resizing). Eenvoudige herschaling leidt tot verlies van radarspecifieke informatie (zoals Doppler-verschuivingen en fasegegevens) en maakt het gebruik van vooringestelde positionele embedding-vectoren (PEV's) inefficiënt, wat de prestaties aanzienlijk verslechtert.

2. Methodologie

De auteurs presenteren een tweeledige aanpak om deze uitdagingen op te lossen: de ontwikkeling van een nieuwe dataset en een nieuw modelarchitectuur.

A. De ALERT Dataset

De auteurs hebben de ALERT dataset ontwikkeld, de eerste open UWB-dataset die is verzameld in een echt rijomgeving.

Collectie: Data is verzameld met een Novelda Xethru X4M06 UWB-sensor, gemonteerd op het luchtrooster van een auto (niet-belemmerend voor het zicht).
Omgeving: Data is verzameld op twee routes (stedelijk en campus) met verschillende wegcondities (asfalt, kasseien, hellingen) om diverse trillingen en multipath-effecten te simuleren.
Activiteiten: De dataset bevat 10.220 samples van 7 activiteiten: ontspanning (autopilot), normaal rijden, knikken (slaperigheid), roken, drinken, bediening van het dashboardpaneel en smartphone-gebruik.
Data Representatie: De dataset biedt zowel range-time (afstand) als frequency-time (Doppler/snelheid) representaties, waardoor gebruikers flexibel kunnen experimenteren met verschillende tijdsvensters en frequentiebanden.

B. ISA-ViT (Input-Size-Agnostic Vision Transformer)

Om ViT-modellen effectief toe te passen op variabele UWB-data zonder informatie te verliezen, stellen de auteurs ISA-ViT voor.

Informatiebehoudende Herschaling: In plaats van de invoer direct te herschalen naar 224x224 (wat details verwijdert), wordt de kortste zijde van de invoer uitgebreid tot de lengte van de langste zijde. Vervolgens wordt de invoer opgedeeld in een vast raster van 14x14 patches. De grootte van de patches ( $k \times k$ ) wordt dynamisch berekend op basis van de invoerdimensies.
Aanpassing van Positionele Embeddings (PEV): De methode behoudt de originele 14x14 sequentie van de vooringestelde PEV's (van ImageNet). In plaats van de PEV's te interpoleren of te bijsnijden (wat de ruimtelijke samenhang verstoort), worden de convolutionele kernels van de patch-embedding-laag aangepast aan de nieuwe patchgrootte $k$ . De gewichten worden geschaald of geïnterpoleerd om de nieuwe dimensie te matchen, waardoor de vooringestelde ruimtelijke kennis behouden blijft.
Domein-Fusie Strategie: Het model combineert features uit zowel het range-domein als het frequentiedomein.
- Het range-domein (ruimtelijke context) wordt verwerkt door de ISA-ViT.
- Het frequentiedomein (bewegingsdynamiek) wordt verwerkt door een lichtgewicht feature-extractor.
- De features worden samengevoegd met een leerbaar scalair gewicht ( $\beta$ ) om te voorkomen dat het minder informatieve frequentiedomein het ruimtelijke domein overstemt.

3. Belangrijkste Bijdragen

ALERT Dataset: Een open, real-world dataset met 10.220 samples van 7 afgeleide rijactiviteiten, inclusief zowel range- als frequentiedata, verzameld onder realistische rijcondities.
ISA-ViT Model: Een nieuw architectuurconcept dat ViT toepasbaar maakt voor UWB-data met variabele afmetingen door een herschalingstechniek die informatiebehoud garandeert en vooringestelde PEV's effectief benut zonder domein-specifieke distortie.
Domein-Fusie Framework: Een strategie die de complementariteit van range- en frequentiedata benut, wat leidt tot een significante verbetering in classificatieprecisie.
Uitgebreide Benchmarking: Een grondige evaluatie van 8 verschillende leeralgoritmen (CNN, RNN, Transformer) op de ALERT dataset, inclusief analyse van observatietijden, multipath-effecten en few-shot adaptatie.

4. Resultaten

Uitgebreide experimenten tonen de superioriteit van de voorgestelde aanpak aan:

Prestaties: ISA-ViT bereikte een classificatie-accuraatheid van 76,28%, wat een verbetering is van 22,68% ten opzichte van bestaande ViT-methoden die eenvoudige herschaling toepassen.
Veiligheid: De nauwkeurigheid voor het detecteren van afgeleide rijgedrag (alle niet-rij-activiteiten) bedroeg 97,35%.
Vergelijking: ISA-ViT presteerde beter dan CNN-gebaseerde modellen (zoals GoogLeNet, ResNet) en RNN-modellen, vooral omdat het de volledige informatie van de UWB-signalen behoudt.
Domein-Fusie: Het gebruik van domein-fusie verbeterde de F1-scores voor alle activiteiten aanzienlijk (bijv. +13,69% voor 'Panel' en +10,50% voor 'Drink') in vergelijking met het gebruik van slechts één domein.
Few-Shot Adaptatie: Met slechts 30 shots (voorbeelden) per bestuurder kon de nauwkeurigheid van ISA-ViT worden opgevoerd tot 91,75%, wat aantoont dat het model goed aanpasbaar is aan individuele gebruikers.

5. Betekenis en Impact

Dit werk legt een fundament voor robuuste en schaalbare systemen voor het detecteren van afgeleide rijgedrag in de echte wereld.

Praktische Toepassing: De combinatie van privacy-bewuste UWB-sensoren en een hoogpresterend AI-model maakt de implementatie in productieauto's haalbaar, zonder de privacy van bestuurders te schenden.
Open Science: Door de ALERT dataset en de code openbaar te maken, stimuleren de auteurs verdere research en standaardisatie in het veld van UWB-gebaseerde HAR (Human Activity Recognition).
Technologische Doorbraak: De introductie van ISA-ViT lost een fundamenteel probleem op bij het toepassen van grote vooringestelde modellen (pre-trained models) op niet-visuele, variabele data, wat een pad opent voor toekomstige toepassingen in andere domeinen waar data-afmetingen variëren.

Samenvattend biedt dit paper een complete oplossing voor de beperkingen van bestaande DAR-systemen, van datacollectie tot modelarchitectuur, en demonstreert het dat IR-UWB in combinatie met geavanceerde transformer-modellen een krachtige technologie is voor verkeersveiligheid.

ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB

1. Het Grootste Oefenboek: De ALERT-dataset

2. De Slimme Vertaler: ISA-ViT

3. Twee Ogen in plaats van Eén: Domein Fusie

Wat is het resultaat?

Waarom is dit belangrijk?

1. Probleemstelling

2. Methodologie

A. De ALERT Dataset

B. ISA-ViT (Input-Size-Agnostic Vision Transformer)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains

From Business Events to Auditable Decisions: Ontology-Governed Graph Simulation for Enterprise AI

Sustained Impact of Agentic Personalisation in Marketing: A Longitudinal Case Study

RAMP: Hybrid DRL for Online Learning of Numeric Action Models

Parameterized Complexity Of Representing Models Of MSO Formulas