ALERT Open Dataset and Input-Size-Agnostic Vision Transformer for Driver Activity Recognition using IR-UWB

Each language version is independently generated for its own context, not a direct translation.

🚗 1. 문제 상황: "운전 중 산만함은 치명적입니다"

세계적으로 매년 수많은 사람이 운전 중 산만함으로 사고를 당합니다.

기존 방식의 한계:
- 카메라: 운전자의 얼굴을 찍으니 사생활 침해 우려가 있고, 밤이나 안개 낀 날엔 잘 안 보입니다.
- 마이크: 주변 소음에 방해받고, 역시 사생활 문제가 있습니다.
- 기존 무선 신호 (WiFi 등): 차 안의 다른 기기들과 신호가 섞여 간섭이 생기기 쉽습니다.

📡 2. 해결책: "눈이 보이지 않는 초능력의 레이더 (IR-UWB)"

연구팀은 **'IR-UWB 레이더'**라는 장비를 사용했습니다.

비유: 이 레이더는 운전자의 모양이나 얼굴을 찍는 카메라가 아니라, '공기 중의 미세한 진동과 움직임'을 감지하는 초정밀 안테나입니다.
장점:
- 사생활 보호: 운전자의 얼굴을 찍지 않으므로 프라이버시가 안전합니다.
- 튼튼함: 빛이나 소음에 영향을 받지 않고, 다른 전파와도 잘 섞이지 않습니다.
- 정밀함: 아주 작은 움직임 (예: 담배를 입으로 가져가는 손 움직임) 도 감지합니다.

🧩 3. 두 가지 큰 장벽 (문제점)

하지만 이 레이더를 실제 차에 적용하려면 두 가지 큰 문제가 있었습니다.

데이터 부족 (지도가 없음):
- AI 가 배우려면 수많은 예시 데이터가 필요합니다. 그런데 기존 데이터는 실험실 (가상) 에서만 만들어져 실제 도로의 진동이나 울림을 반영하지 못했습니다. 마치 "가상 현실 게임에서 배운 운전 실력으로 실제 비포장도로를 운전하는" 것과 비슷합니다.
모델 불일치 (옷이 안 맞음):
- 최신 AI 모델 (비전 트랜스포머, ViT) 은 주로 **사진 (정사각형 이미지)**을 보며 훈련되었습니다. 하지만 레이더 데이터는 길쭉한 직사각형 모양입니다.
- 비유: 마치 정사각형으로 자른 피자 조각을 강제로 원형 피자에 끼우려고 하면 모양이 찌그러지거나 재료가 떨어지는 것처럼, 레이더 데이터를 AI 가 알아볼 수 있도록 변형하면 중요한 정보 (속도, 방향 등) 가 사라져버립니다.

🚀 4. 연구팀의 해결책 (해결책 2 가지)

① 'ALERT' 데이터셋 공개 (실전 지도 만들기)

연구팀은 실제 도로에서 9 명의 지원자를 대상으로 10,220 개의 데이터를 모았습니다.

내용: 운전, 휴식, 고개 끄덕임 (졸음), 담배 피우기, 음료수 마시기, 대시보드 조작, 스마트폰 사용 등 7 가지 활동을 기록했습니다.
특징: 실제 차 안에서, 실제 도로의 진동과 함께 수집된 진짜 데이터입니다. 이제 다른 연구자들도 이 '진짜 지도'를 가지고 더 똑똑한 AI 를 만들 수 있게 되었습니다.

② 'ISA-ViT'라는 새로운 AI 모델 (옷을 맞춰주는 재단사)

기존 AI 가 레이더 데이터를 제대로 못 보는 문제를 해결하기 위해 ISA-ViT라는 새로운 모델을 만들었습니다.

핵심 아이디어: 레이더 데이터를 억지로 사진 크기로 자르지 않고, 레이더의 고유한 특징 (거리, 주파수) 을 그대로 살리면서 AI 가 이해할 수 있게 변형하는 기술입니다.
비유:
- 기존 방식: 긴 천을 잘라내서 짧은 옷을 만드는 것 (정보 손실).
- ISA-ViT 방식: 천의 길이를 유지하되, AI 가 입기 편하게 재단하는 기술을 적용했습니다. AI 가 이미 알고 있는 '위치 정보'를 레이더 데이터에 딱 맞게 적용해서, 정보가 새지 않게 합니다.
이중 감지 (도메인 퓨전): 레이더 데이터는 '거리' 정보와 '주파수 (속도)' 정보가 따로 있습니다. 연구팀은 이 두 정보를 서로 보완되게 섞어서 AI 에게 주었습니다.
- 비유: "거리 정보"는 어디서 움직였는지를, "주파수 정보"는 얼마나 빠르게 움직였는지를 알려줍니다. 두 눈을 모두 뜨고 보는 것처럼 정확도가 훨씬 높아집니다.

🏆 5. 결과: 얼마나 잘하나요?

실험 결과, 이 새로운 방식 (ISA-ViT) 은 기존 방식보다 정확도가 22% 이상 향상되었습니다.

산만한 운전 감지 정확도: 97.35% (거의 완벽에 가까움!)
전체 활동 분류 정확도: 76.28%

💡 6. 결론 및 의미

이 연구는 **"사생활을 침해하지 않으면서, 빛이나 소음에 구애받지 않는 안전한 운전 감지 시스템"**의 길을 열었습니다.

ALERT 데이터셋은 앞으로 전 세계 연구자들이 더 좋은 시스템을 만들 수 있는 기초 자료가 됩니다.
ISA-ViT는 레이더 데이터를 AI 가 잘 이해할 수 있게 해주는 핵심 기술이 되어, 미래의 자율주행차나 스마트 카에서 운전자의 안전을 지키는 '보이지 않는 수호천사' 역할을 할 것입니다.

한 줄 요약:

"카메라 대신 레이더를 쓰고, AI 가 레이더 데이터를 잘 이해하도록 옷을 맞춰주니, 운전 중 스마트폰 사용 같은 위험 행동을 97% 이상 정확히 잡아낸다는 놀라운 연구입니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

분산 운전 (Distracted Driving) 은 전 세계적으로 치명적인 교통 사고의 주요 원인 중 하나입니다. 이를 해결하기 위해 IR-UWB(Impulse Radio Ultra-Wideband) 레이더를 활용한 운전자 활동 인식 (DAR, Driver Activity Recognition) 연구가 진행되고 있으나, 다음과 같은 두 가지 핵심적인 한계가 존재합니다.

실제 주행 환경의 대규모 데이터 부재: 기존 연구들은 주로 시뮬레이션 환경이나 단일 활동에 집중된 데이터를 사용했습니다. 실제 도로 주행 중 발생하는 진동, 노면 상태, 다양한 환경적 요인을 반영한 포괄적인 분산 운전 행동 데이터셋이 부족합니다.
ViT(Vision Transformer) 적용의 어려움: 최신 비전 모델인 ViT 는 고정된 입력 크기 (예: 224x224) 와 특정 위치 임베딩 (PEV) 을 전제로 합니다. UWB 레이더 데이터는 이미지와 다른 비정형적인 차원 (비대칭적인 크기) 을 가지며, 단순한 리사이징 (Resizing) 은 도플러 시프트, 위상 정보 등 레이더 특유의 신호 정보를 왜곡하거나 손실시킵니다. 또한, 자연어 이미지용으로 학습된 PEV 를 UWB 데이터에 그대로 적용하면 성능이 저하됩니다.

2. 제안 방법론 (Methodology)

이 논문은 위 두 가지 문제를 해결하기 위해 ALERT 데이터셋과 ISA-ViT(Input-Size-Agnostic Vision Transformer) 모델을 제안합니다.

A. ALERT 데이터셋 (Open Dataset)

특징: 실제 주행 환경 (도시 도로 및 캠퍼스 코스) 에서 수집된 최초의 IR-UWB 기반 분산 운전 데이터셋입니다.
구성: 9 명의 지원자로부터 수집된 총 10,220 개의 샘플 (5 초 단위) 로 구성되며, 7 가지 활동 (이완, 정상 주행, 고개 끄덕임, 흡연, 음주, 패널 조작, 스마트폰 사용) 을 포함합니다.
데이터 형태: 레이더 신호의 거리 - 시간 (Range-Time) 및 주파수 - 시간 (Frequency-Time) 도메인 데이터를 모두 제공합니다. 이를 통해 사용자는 관측 시간, 멀티패스 효과, 주파수 대역 등을 자유롭게 조절하여 실험할 수 있습니다.
설계: 차량의 에어 벤트에 레이더를 고정하여 시야를 방해하지 않으면서도 운전자의 상체 움직임을 효과적으로 포착하도록 설계되었습니다.

B. ISA-ViT (Input-Size-Agnostic Vision Transformer)

기존 ViT 의 입력 크기 제한을 극복하고 UWB 데이터의 특성을 보존하기 위해 개발된 새로운 프레임워크입니다.

정보 손실 없는 리사이징 전략:
- UWB 데이터의 짧은 변을 긴 변의 크기로 확장하여 정사각형으로 만든 후, 14x14 패치로 분할합니다.
- 패치 크기를 동적으로 조정하여 입력 데이터의 원본 정보를 최대한 보존합니다.
- 핵심: 사전 학습된 ViT 의 14x14 위치 임베딩 벡터 (PEV) 시퀀스를 유지하면서, 패치 임베딩을 생성하는 CNN 커널의 크기와 가중치를 UWB 데이터의 패치 크기에 맞게 조정 (인터폴레이션 또는 평균 풀링) 합니다. 이는 PEV 의 공간적 일관성을 해치지 않으면서 UWB 데이터에 적용할 수 있게 합니다.
도메인 퓨전 (Domain Fusion) 전략:
- 거리 도메인 (Range): 공간적 맥락과 정밀한 위치 정보를 제공합니다.
- 주파수 도메인 (Frequency): 도플러 효과에 기반한 속도 및 운동 패턴 정보를 제공합니다.
- 두 도메인의 특징을 결합하여 분류 성능을 높입니다. 특히, 거리 도메인 정보를 주력으로 하고 주파수 도메인 정보는 가중치 인자 ( $\beta$ ) 를 통해 조절하여 결합하는 가중 퓨전 방식을 사용합니다.

3. 주요 기여 (Key Contributions)

ALERT 데이터셋 공개: 실제 주행 환경에서 수집된 7 가지 활동에 대한 포괄적인 UWB 데이터셋을 공개하여, 향후 DAR 연구의 벤치마킹 표준을 제시했습니다.
ISA-ViT 모델 제안: 입력 크기에 구애받지 않으면서 사전 학습된 ViT 의 능력을 UWB 도메인에 효과적으로 전이 (Transfer) 할 수 있는 새로운 아키텍처를 제안했습니다.
성능 향상 및 벤치마킹: CNN, RNN, 기존 ViT 등 8 가지 학습 알고리즘에 대한 포괄적인 벤치마킹을 수행하고, 제안된 ISA-ViT 와 도메인 퓨전 전략의 우수성을 입증했습니다.

4. 실험 결과 (Results)

분류 정확도: 제안된 ISA-ViT 는 기존 ViT 방법론 대비 **22.68% 높은 정확도 (76.28%)**를 달성했습니다.
분산 운전 탐지 정확도: 정상 주행 (Drive) 을 제외한 모든 분산 활동을 탐지하는 정확도는 **97.35%**에 달했습니다.
도메인 퓨전 효과: 단일 도메인 (거리 또는 주파수만 사용) 대비 도메인 퓨전을 적용했을 때 정확도가 크게 향상되었으며 (약 10% 이상), 특히 흡연, 음주 등 시각적으로 유사한 행동을 구분하는 데 효과적이었습니다.
비교 분석:
- CNN 기반 모델들은 UWB 데이터의 리사이징 과정에서 정보 손실이 발생하여 성능이 제한적이었습니다.
- ISA-ViT 는 정보 손실 없이 리사이징을 수행하고 PEV 를 적절히 조정함으로써 모든 데이터셋 (ALERT, RaDA) 에서 최상의 성능을 보였습니다.
- 계산 비용 (FLOPs) 은 기존 ViT 대비 0.3 GFLOPs 만 증가하여 효율적인 성능 향상을 이루었습니다.

5. 의의 및 결론 (Significance)

이 연구는 IR-UWB 레이더를 활용한 운전자 활동 인식의 실용화를 위한 중요한 이정표입니다.

데이터 측면: 실제 주행 환경의 복잡성을 반영한 공개 데이터셋을 통해 연구의 재현성과 확장성을 높였습니다.
모델 측면: 비정형적인 센서 데이터를 이미지 기반 Transformer 모델에 적용할 때 발생하는 '입력 크기 불일치'와 '도메인 간 정보 손실' 문제를 해결하는 새로운 패러다임 (ISA-ViT) 을 제시했습니다.
실용성: 높은 정확도와 실시간 처리 가능성 (경량화 전략을 통해 향후 개선 예정) 을 바탕으로, 실제 차량에 탑재되어 운전자의 안전을 보호하고 사고를 예방하는 시스템 구축의 기반을 마련했습니다.

결론적으로, 본 논문은 ALERT 데이터셋과 ISA-ViT를 통해 분산 운전 감지 시스템의 정확성과 확장성을 획기적으로 개선하였으며, 향후 UWB 기반 지능형 교통 시스템 (ITS) 개발에 중요한 기여를 할 것으로 기대됩니다.