Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Each language version is independently generated for its own context, not a direct translation.

🚗 1. 문제: 왜 기존 자율주행차는 헷갈릴까요?

기존의 자율주행 AI 는 마치 수천 권의 책을 무작위로 읽은 학생과 같습니다.

기존 방식: "빨간불이 켜지면 멈춰라", "보행자가 있으면 양보해라" 같은 규칙을 많이 외웠습니다. 하지만 자주 보는 상황 (예: 맑은 날의 고속도로) 에만 익숙하고, **드물게 일어나는 이상한 상황 (예: 비 오는 날에 갑자기 튀어나온 자전거)**이나 규칙이 애매한 상황에서는 당황해서 실수를 하거나, 단순히 통계적으로 가장 많이 나온 답을 고릅니다.
한계: "이런 상황은 처음인데, 어떡하지?"라고 생각하지 못하고, 무작정 외운 대로만 행동하려다 사고가 날 수 있습니다.

💡 2. 해결책: Traffic-MLLM 의 두 가지 비법

이 논문은 AI 가 단순히 규칙을 외우는 게 아니라, 운전사처럼 '경험'을 쌓고 '호기심'을 갖게 만드는 방법을 제안합니다.

📚 비유 1: "개인적인 운전 일기장" (Case-Based Reasoning)

기존 AI 는 데이터를 하나하나 따로따로 공부하지만, 이 새로운 AI 는 모든 운전 상황을 '사례 (Case)'라는 일기장으로 정리합니다.

어떻게 하나요? "어제 비가 와서 앞차가 급정거한 상황", "어제 교차로에서 보행자가 갑자기 뛰어든 상황" 등을 모두 기록합니다.
특이점: 이 일기장은 시험을 볼 때 (운전할 때) 다시 찾아보는 게 아니라, 공부하는 동안 머릿속에 완전히 체화됩니다. 그래서 실제 운전할 때는 일기장을 뒤적일 필요 없이, 머릿속에 정리된 '경험의 패턴'을 바로 떠올려 판단합니다.

🧐 비유 2: "호기심 많은 탐정" (Curiosity-Regularized Learning)

여기서 가장 중요한 것은 **'호기심'**입니다.

기존 AI: 자주 보는 상황 (예: 평범한 신호등) 은 이미 다 안다고 생각해서 대충 공부하고, 자주 안 보는 상황 (예: 눈 오는 날의 복잡한 교차로) 은 공부할 때 건너뛰거나 가볍게 넘깁니다.
Traffic-MLLM: AI 는 **"아, 이 상황은 내가 아직 잘 모르는 낯선 곳이야!"**라고 느끼는 순간, **호기심 (Curiosity)**이 생깁니다.
- AI 는 스스로 "내가 이걸 잘 모르면 위험하니까, 이 부분을 더 열심히 공부해야지!"라고 생각하게 됩니다.
- 이를 **'무작위 네트워크 증류 (RND)'**라는 기술로 구현했는데, 쉽게 말해 "내가 아직 모르는 낯선 장소를 탐지하는 나침반" 역할을 합니다. 이 나침반이 가리키는 곳 (드문 상황) 에 집중해서 공부하게 만들어, 드문 상황에서도 실수를 줄입니다.

🎯 3. 실제 효과: 어떻게 달라졌나요?

연구진은 이 방법을 적용한 AI 를 실제 데이터 (실제 도로 영상, 시뮬레이션 데이터) 로 테스트했습니다.

결과: 기존에 가장 잘하던 AI 들보다 정답률이 훨씬 높아졌습니다.
- 특히 **예측하기 어려운 상황 (미래에 무슨 일이 일어날지 예측)**이나 규칙이 복잡한 상황, 처음 보는 도로 환경에서 훨씬 뛰어난 성능을 보였습니다.
비유: 마치 새로운 도시로 이사 온 운전사가, 처음 보는 길에서도 "아, 저기 신호등 모양이 우리 동네와 비슷하네, 그럼 저기서도 멈춰야겠구나"라고 유추해서 안전하게 운전하는 것과 같습니다.

🚀 4. 요약: 왜 이 연구가 중요할까요?

이 연구는 **"자율주행차가 더 안전해지려면, 단순히 많은 데이터를 먹이는 것보다 '어떤 경험을 어떻게 정리할지'와 '어떤 상황에서 더 집중할지'를 가르치는 것이 중요하다"**는 것을 보여줍니다.

기존: "모든 상황을 다 외워라." (비효율적, 드문 상황 실패)
새로운 방법 (Traffic-MLLM): "경험을 구조화해서 머릿속에 넣고, **낯선 곳 (호기심)**을 발견하면 더 열심히 공부해라." (효율적, 드문 상황도 잘 처리)

결론적으로, 이 기술은 자율주행차가 예상치 못한 돌발 상황에서도 당황하지 않고, 인간처럼 유연하게 판단할 수 있는 토대를 마련해 줍니다. 앞으로는 이 AI 가 더 다양한 도로 상황 (폭우, 눈, 사고 현장 등) 을 경험하며 점점 더 똑똑해질 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

자율주행의 안전성과 견고성을 보장하기 위해서는 교통 시나리오의 본질적인 롱테일 (Long-tail) 문제와 불확실성을 처리할 수 있어야 합니다. 기존 접근 방식은 다음과 같은 한계를 가집니다.

전통적인 사례 기반 추론 (CBR) 의 한계: 복잡한 동적 교통 환경에서 기존 CBR 은 불확실성 하에서 지식을 효과적으로 추상화하고 적응하는 데 어려움을 겪습니다.
다중 모달 대형 언어 모델 (MLLM) 의 한계: MLLM 은 뛰어난 지각 및 언어 능력을 보이지만, 추론 행동이 경험적 패턴 피팅 (empirical pattern fitting) 에 의존하는 경향이 있습니다. 이로 인해 분포 이동 (distribution shift) 이나 드문 롱테일 시나리오에서 견고성이 떨어집니다.
기존 학습 패러다임의 결함: 대부분의 기존 방법은 훈련 샘플을 구조화된 사례 공간 (structured case space) 내의 구성 요소가 아닌, 독립적인 예측 인스턴스로 간주하여 Supervised Fine-Tuning (SFT) 을 수행합니다. 이는 고빈도 통계 패턴에 편향되어, 약하게 표현되거나 분포가 이동한 시나리오에 대한 적응 실패로 이어집니다.

2. 제안 방법론 (Methodology)

저자들은 Traffic-MLLM을 제안합니다. 이는 추론 시 명시적인 사례 검색 (retrieval) 을 수행하지 않고, 훈련 중 직접 구조화되고 일반화 가능한 **사례 공간 (Case Space)**을 학습하는 검색 없는 (Retrieval-free) 신경 사례 모델링 프레임워크입니다.

A. 다중 소스 사례 기반 구축 (Multi-Source Case Base Construction)

모델이 학습할 수 있는 통합된 훈련 기저 (substrate) 를 제공하기 위해 동적 및 정적 데이터를 통합한 사례 기반을 구성했습니다.

동적 사례 (Dynamic Cases): 교통QA(TrafficQA) 와 자체 수집된 비디오 데이터를 결합하여 약 12,000 개의 실제 도로 비디오와 70,000 개의 QA 쌍을 포함합니다. 이는 시간적 상호작용과 미래 상태 진화를 포착합니다.
정적 사례 (Static Cases): DriveQA 를 활용하여 실제 교통 표지판과 CARLA 시뮬레이션 환경에서 추출한 448,000 개의 튜플을 포함합니다. 이는 규제 추론과 세밀한 시각적 의미론을 다룹니다.
구조: 각 사례는 시각적 컨텍스트 ( $x$ ), 텍스트 쿼리 ( $q$ ), 정답 ( $a$ ), 설명 ( $e$ ) 의 튜플로 정의됩니다.

B. 아키텍처 (Architecture)

통합 파이프라인: 비전 - 텍스트 인코더 - 퓨전 - 디코더 아키텍처를 사용하여 동적 비디오 추론과 정적 이미지 QA 를 단일 자기회귀 (autoregressive) 프레임워크에서 지원합니다.
시공간 인코딩: 비디오 토큰에 시간, 높이, 너비 좌표를 부여하고 회전 위치 임베딩 (Rotary Position Embeddings) 을 사용하여 시공간 의존성을 인코딩합니다.
추론 구조: 추론 시 아키텍처를 변경하지 않으며, 학습 단계에서 구조화된 사례가 어떻게 흡수되는지에 초점을 맞춥니다.

C. 호기심 기반 사례 공간 최적화 (Curiosity-Driven Case-Space Optimization)

표준 SFT 는 고빈도 사례에 편향되므로, **랜덤 네트워크 증류 (Random Network Distillation, RND)**를 기반으로 한 호기심 (Curiosity) 정규화 메커니즘을 도입했습니다.

사례 임베딩 추출: 디코더의 은닉 상태 (Hidden States) 를 기반으로 마스크 풀링 (Masked Pooling) 을 수행하여 사례 수준의 잠재 임베딩 ( $z$ ) 을 생성합니다.
RND 모듈: 고정된 무작위 타겟 네트워크 ( $g_\phi$ $g_{ϕ}$ ) 와 학습 가능한 예측기 네트워크 ( $h_\psi$ $h_{ψ}$ ) 를 사용하여 임베딩 $z$ $z$ 의 예측 오차 (Distillation Error) 를 계산합니다.
- $r_{int} = \|h_\psi(z) - g_\phi(z)\|^2_2$
- 높은 $r_{int}$ 값은 모델이 잘 학습하지 못했거나 구조적으로 새로운 (Novel) 사례를 나타냅니다.
적응형 재가중치 (Adaptive Reweighting): 이 호기심 신호를 손실 함수의 적응형 가중치로 활용합니다.
- 새로운 목적 함수: $L_{total} = L_{SFT} + \lambda_{nov}L_{nov} + \lambda_{pred}L_{pred} - \lambda_{ent}H(\pi_\theta)$
- $L_{nov}$ 는 호기심 신호를 기반으로 낮은 빈도나 경계 (Boundary) 사례에 더 큰 학습 가중치를 부여합니다.
- 엔트로피 정규화 ( $H$ ) 를 통해 모드 붕괴를 방지하고 표현 다양성을 유지합니다.

3. 주요 기여 (Key Contributions)

검색 없는 신경 사례 학습 패러다임: 추론 시 외부 데이터베이스 검색 없이, 훈련 중 사례 공간을 내부적으로 학습하여 확장 가능한 다중 모달 사례 적응을 가능하게 했습니다.
다중 소스 통합 사례 기반: 동적 비디오 (시간적 인과 관계) 와 정적 이미지 (규제/세밀한 의미) 를 통합하여 교통 시나리오의 전체 스펙트럼을 포괄하는 통합 훈련 기저를 구축했습니다.
RND 기반 호기심 정규화: 표준 SFT 의 분포 편향을 해결하기 위해 RND 를 도입하여, 모델이 표면적 상관관계가 아닌 사례 간의 구조적 규칙성 (structural regularities) 을 내재화하도록 유도했습니다. 이는 롱테일 및 분포 이동 시나리오에서의 견고성을 크게 향상시켰습니다.

4. 실험 결과 (Results)

SUTD-TrafficQA 와 DriveQA 벤치마크에서 기존 모델 대비 일관된 개선을 보였습니다.

SUTD-TrafficQA (동적 추론):
- 정확도: 50.8% (기존 최강 모델인 Tem-Adaptor 의 46.10% 및 Qwen3-VL 의 46.00% 를 상회).
- 세부 성능: 반사적 추론 (Counterfactual), 역추론 (Reverse), 미래 예측 등 복잡한 추론 태스크에서 특히 큰 향상을 보였습니다.
DriveQA (정적 시나리오 및 교차 도메인):
- CARLA (Synthetic): 74.8% 정확도 (7B/8B 파라미터 모델들보다 적은 4B 모델로 최상위 성능 달성).
- Mapillary (Real-world): 83.1% 정확도. 시뮬레이션 데이터로 훈련된 모델이 실제 도로 환경에서도 뛰어난 일반화 능력을 입증했습니다.
Ablation Study:
- 사례 기반 SFT 추가, 호기심 재가중치 (RND) 추가, 엔트로피 정규화 추가 순으로 성능이 점진적으로 향상됨을 확인했습니다.

5. 의의 및 결론 (Significance)

구조적 일반화의 중요성: 단순한 모델 스케일링이나 지시형 튜닝만으로는 복잡한 교통 추론의 롱테일 문제를 해결할 수 없으며, 구조화된 사례 공간 학습이 필수적임을 입증했습니다.
효율성과 견고성: 명시적인 검색 메커니즘 없이도, 훈련 중 호기심 기반 최적화를 통해 분포 이동과 롱테일 이벤트에 대한 모델의 적응 능력을 획기적으로 향상시켰습니다.
미래 전망: 이 프레임워크는 자율주행의 세계 모델 (World Model) 구축으로 확장될 수 있으며, 단순한 질문 응답을 넘어 예측 및 계획 (Planning) 능력을 갖춘 더 일반적인 추론 시스템으로 발전할 잠재력을 가집니다.

결론적으로, Traffic-MLLM 은 기존 CBR 의 한계를 극복하고 MLLM 의 추론 능력을 강화하여, 불확실하고 동적인 교통 환경에서 안전하고 견고한 의사결정을 지원하는 새로운 패러다임을 제시합니다.