RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

Each language version is independently generated for its own context, not a direct translation.

🚗 핵심 아이디어: "레이더를 '말'로 가르치자"

지금까지 자율주행차의 레이더는 마치 "숫자만 외우는 학생" 같았습니다.

기존 방식: "앞에 차가 1 대, 왼쪽에 차가 2 대"라고 딱딱한 숫자나 박스 (Bounding Box) 로만 인식했습니다. 날씨나 빛에 상관없이 잘 보이지만, 이 정보는 너무 단순해서 복잡한 상황을 이해하기 어려웠습니다.
이 연구의 방식 (RadarVLM): 레이더가 "사람처럼 말로 상황을 설명" 할 수 있도록 가르쳤습니다.
- 예: "우리 차 바로 앞 10~20m 거리에 오른쪽 차선에 차 3 대가 있고, 그 뒤로 차 2 대가 있어요."

이처럼 시각 정보 (레이더 그림) 와 언어 (설명) 를 연결하면, 레이더가 단순히 '무언가 있다'는 것을 넘어 '어디에, 어떻게 분포되어 있는지' 를 깊이 이해하게 됩니다.

🌧️ 왜 레이더가 필요한가요? (비유: 안개 속의 등대)

카메라는 맑은 날엔 선명하게 보이지만, 비나 안개, 어둠이 내리면 시야가 가려져서 길을 잃기 쉽습니다. 반면 레이더는 비나 안개 속에서도 물체의 거리와 속도를 정확히 감지하는 '안개 속의 등대' 역할을 합니다.

하지만 기존 레이더 AI 는 각자 다른 임무 (차 찾기, 도로 구분하기 등) 를 위해 따로따로 훈련받아서, 서로 정보를 공유하지 못했습니다. 이 연구는 하나의 두뇌로 모든 상황을 통합적으로 이해하게 만들었습니다.

🛠️ 어떻게 만들었나요? (세 가지 혁신)

1. 지도 위의 '구역 나누기' (구조화된 설명)

레이더 화면을 그냥 그림으로 보는 게 아니라, 거리 (10m, 20m...) 와 방향 (오른쪽 차선, 왼쪽 차선) 으로 세분화된 '구역'으로 나눕니다.

비유: 마치 지도 앱에서 "서울시 강남구 역삼동 100 번지"라고 정확한 주소를 적는 것과 같습니다. 단순히 "차 있다"가 아니라 "어디에 몇 대 있는지"를 언어로 정확히 묘사하는 데이터를 만들었습니다.

2. '부드러운' 학습 방법 (SG-CLIP)

기존 AI 는 정답과 오답을 100% 완벽하게 구분하는 '흑백 논리'로 배웠습니다.

문제: "차 3 대"와 "차 2 대"는 서로 완전히 다른 게 아니라, 비슷한 상황인데도 기존 방식은 둘을 완전히 다른 것으로 취급해 혼란을 줍니다.
해결: 이 연구는 "차 3 대"와 "차 2 대"는 서로 80% 비슷하다라고 부드럽게 가르칩니다. 마치 시험에서 100 점과 90 점의 차이만 있는 학생을 완전히 다른 사람으로 취급하지 않고, 점수 차이에 비례해 평가하는 것과 같습니다. 이렇게 하면 AI 가 미세한 차이도 잘 구분하게 됩니다.

3. 시뮬레이션으로 '수백만 번' 연습

실제 도로에서 레이더 데이터를 모으는 건 비싸고 위험합니다. 그래서 가상 세계 (CARLA 시뮬레이터) 에서 110 시간 이상의 운전 데이터를 만들어 80 만 개 이상의 '레이더 그림 + 설명' 쌍을 학습시켰습니다.

🏆 결과는 어땠나요?

이 새로운 방법을 적용한 결과, 기존 방식보다 압도적으로 좋아졌습니다.

설명 능력 향상: 멀리 있는 차를 정확히 "몇 대, 어디에 있는지" 말로 설명하는 정확도가 50% 이상 향상되었습니다. (기존에는 멀리 있는 차를 못 찾거나 엉뚱한 곳에 있다고 말했지만, 이제는 정확히 찾아냅니다.)
차 구분 능력 향상: 레이더 화면에서 차가 있는 부분을 정확히 찾아내는 능력 (분할) 도 21% 이상 좋아졌습니다.

💡 요약: 왜 이것이 중요한가요?

이 연구는 "레이더에게 말을 가르쳤다" 는 점에서 획기적입니다.
레이더가 단순히 물체를 감지하는 '센서'를 넘어, 주변 상황을 언어로 이해하고 설명할 수 있는 '지능' 을 갖게 된 것입니다.

과거: "앞에 물체 있음." (무엇인지, 어디인지 모호함)
현재 (RadarVLM): "앞 20m, 오른쪽 차선에 차 2 대가 서 있어요." (정확한 상황 인식)

이 기술이 실용화되면, 비나 안개 속에서도 자율주행차가 주변 상황을 훨씬 더 똑똑하고 안전하게 이해하여 사고를 예방하는 데 큰 도움이 될 것입니다. 마치 **안개 낀 밤길에도 주변을 정확히 파악하고 설명해 줄 수 있는 '초능력 운전 기사'**를 만든 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

레이더 센서의 중요성과 한계: 자율주행 시스템에서 카메라와 LiDAR 는 악천후 (비, 안개, 어둠) 및 장거리 조건에서 성능이 저하됩니다. 반면, 레이더는 이러한 조건에서도 강인한 거리 및 속도 측정이 가능하여 필수적입니다.
기존 접근법의 단점: 현재 레이더 기반 머신러닝 접근법은 파편화 (Fragmented) 되어 있습니다. 객체 감지, 의미론적 분할, 점유 예측 등 각 하위 작업마다 별도의 아키텍처와 학습 목표를 사용합니다. 이로 인해 학습된 표현 (Representation) 은 작업 간 전이 (Transfer) 가 어렵고, 다양한 주행 시나리오에 일반화되지 못합니다.
기존 지도 학습의 부족: 기존 레이더 ML 파이프라인은 바운딩 박스나 클래스 레이블과 같은 범주형 (Categorical) 지도 신호에 의존합니다. 이는 "차량이 몇 대 있는지"는 알려주지만, "차량이 어느 차선에서 얼마나 멀리 떨어져 있는지"와 같은 구조화된 공간적 관계 (Relational Spatial Reasoning) 를 포착하는 데 한계가 있습니다.
데이터 부족: 대규모로 정밀하게 주석 처리된 실제 레이더 - 텍스트 쌍 데이터셋을 구축하는 것은 비용과 시간이 많이 들어 현실적으로 어렵습니다.

2. 방법론 (Methodology)

저자들은 RadarVLM이라는 비전 - 언어 모델 (VLM) 프레임워크를 제안하여 레이더 장면 이해를 언어 기반의 구조화된 공간 표현으로 통합합니다.

A. 데이터 구축 (Dataset Curation)

시뮬레이션 기반 수집: CARLA 시뮬레이터에 현실적인 레이더 센서 모델을 통합하여 110 시간 이상의 다양한 주행 시나리오에서 80 만 개 이상의 레이더 - 캡션 쌍을 수집했습니다.
구조화된 공간 캡션 (Structured Spatial Caption):
- 레이더의 고유 좌표계 (거리 - 각도) 를 기반으로 장면을 거리 버인 (0-10m, 10-20m 등) 과 차선 상대적 각도 섹터 (12 개) 로 분할합니다.
- 각 섹터별 차량 수, 교통 표지판, 보행자 유무 등을 JSON 형식으로 구조화하고, 이를 LLM 을 활용하여 자연어 캡션으로 변환합니다. (예: "10~20m 앞의 오른쪽 차선에 3 대의 차량이 있음")

B. 아키텍처 (Architecture)

비전 인코더: 레이더 거리 - 각도 (Range-AoA) 히트맵을 처리하기 위해 사전 학습된 ViT-B/16을 사용합니다.
텍스트 인코더: 상세한 공간 설명을 처리하기 위해 GPT-2 기반 Transformer를 사용하여 컨텍스트 윈도우를 400 토큰으로 확장하고 처음부터 학습합니다.
공유 임베딩 공간: 두 인코더의 출력을 512 차원 공간으로 매핑합니다.

C. 핵심 기술: 공간 기반 대비 학습 (Spatially-Grounded CLIP, SG-CLIP)

기존 CLIP 의 이진 (Binary) 매칭 (일치=1, 불일치=0) 은 공간적 유사성을 무시하여 모델을 단순 키워드 매칭으로 유도합니다. 이를 해결하기 위해 SG-CLIP을 도입했습니다.

연속적 유사도 (Continuous Similarity): 두 장면 간의 차량 수 분포 오버랩을 기반으로 소프트 라벨 (Soft Label) 을 생성합니다.
- 차량 3 대가 있는 장면과 2 대가 있는 장면은 0 대가 있는 장면보다 서로 더 유사합니다.
- 가우시안 커널을 사용하여 거리 - 각도 셀별 차량 수 차이에 기반한 연속적인 유사도 점수 ( $s_{ij}$ ) 를 계산합니다.
손실 함수: 이진 크로스 엔트로피 대신, 생성된 소프트 타겟 행렬을 사용하는 소프트 대비 손실 (Soft Contrastive Loss) 을 적용하여 미세한 공간적 차이를 학습하도록 유도합니다.

D. 검증 태스크 (Validation Tasks)

학습된 모델의 공간적 이해도를 검증하기 위해 두 가지 다운스트림 태스크를 수행합니다 (인코더는 고정):

생성형 캡셔닝 (Generative Captioning): CLS 토큰을 기반으로 차량 분포를 자연어로 다시 생성하는지 확인.
차량 분할 (Vehicle Segmentation): 패치 (Patch) 토큰을 기반으로 레이더 히트맵의 차량 위치를 픽셀 단위로 분할하는지 확인.

3. 주요 기여 (Key Contributions)

구조화된 공간 캡션 프레임워크: 레이더의 원시 좌표계를 기반으로 한 거리 버인과 각도 섹터를 활용한 체계적인 공간 설명 체계 제시.
SG-CLIP (Spatially-Grounded CLIP): 이진 매칭을 연속적인 공간 유사도로 대체하여, 모델이 coarse 한 키워드 매칭이 아닌 fine-grained 한 공간 추론을 학습하도록 함.
공간 인식 평가 지표: 전통적인 언어적 유사도 (BLEU 등) 대신, 거리 - 각도 셀별 정밀도 (Precision) 와 재현율 (Recall) 을 직접 측정하는 위치 인식 평가 지표 (Localization-aware Metrics) 제안.
대규모 레이더 - 언어 데이터셋: CARLA 시뮬레이션을 활용한 80 만 개 이상의 구조화된 레이더 - 캡션 쌍 데이터셋 구축 및 공개 예정.

4. 실험 결과 (Results)

주목도 분석 (Attention Analysis): SG-CLIP 으로 학습된 인코더는 빈 공간이 아닌 차량이 위치한 공간적 영역에 집중하는 것을 시각적으로 확인했습니다.
생성형 캡셔닝 성능:
- SG-CLIP 은 기존 CLIP 대비 장거리 (30~40m) 에서 F1 점수가 최대 50% 상대적 향상을 보였습니다.
- 특히 $\alpha=1.0$ (소프트한 유사도) 설정이 가장 좋은 성능을 내며, 미세한 공간적 차이를 학습하는 데 유리함을 입증했습니다.
차량 분할 성능:
- 고정된 인코더 특징을 사용한 분할 태스크에서 SG-CLIP 은 기존 CLIP 대비 IoU 5%, AP(Average Precision) 21% 향상을 기록했습니다.
- 이는 언어 기반 대비 학습이 글로벌 CLS 토큰뿐만 아니라 로컬 패치 수준의 공간 구조까지 효과적으로 전이되었음을 의미합니다.
비교 우위: 기존 U-Net 기반 접근법 및 Vanilla CLIP 기반 방법론을 모두 압도하는 성능을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

패러다임 전환: 레이더 인식을 개별 작업별 지도 학습에서 통합된 의미론적 표현 (Unified Semantic Representation) 학습으로 전환했습니다.
공간적 추론 능력: 언어를 매개로 한 지도 학습이 레이더 데이터의 공간적 구조를 효과적으로 포착할 수 있음을 증명했습니다.
시뮬레이션에서 현실로 (Sim-to-Real): 언어로 표현된 공간적 관계는 환경에 불변 (Invariant) 하므로, 시뮬레이션 데이터로 학습된 모델이 실제 환경으로의 전이 (Transfer) 에 유리할 것으로 기대됩니다.
미래 전망: 이 프레임워크는 종단간 (E2E) 자율주행 시스템 통합 및 실제 레이더 데이터셋에서의 일반성 검증을 위한 기반을 마련했습니다.

요약하자면, RadarVLM은 레이더 센서의 강인함과 언어 모델의 풍부한 공간적 표현력을 결합하여, 기존에 파편화되었던 레이더 인식 작업을 통합하고 공간적 정확도를 획기적으로 개선한 혁신적인 접근법입니다.