Each language version is independently generated for its own context, not a direct translation.

🚗 DRIV-EX: 자율주행 AI 의 '만약에'를 찾아내는 탐정

이 논문은 자율주행 자동차의 두뇌 역할을 하는 거대한 인공지능 (LLM) 이 왜 위험한 결정을 내리는지, 그리고 그 결정이 어떻게 바뀌는지 알아내는 새로운 방법을 소개합니다. 이 방법을 **'DRIV-EX'**라고 부릅니다.

상상해 보세요. 자율주행 AI 가 "앞차가 너무 빨라서 차선을 유지하자"라고 결정을 내렸는데, 사실은 "앞차가 조금만 더 느려졌으면 차선을 바꿔야 했을 텐데"라는 상황을 찾아내는 것입니다. DRIV-EX 는 바로 그 '만약에 (Counterfactual)' 상황을 찾아내는 도구입니다.

🕵️‍♂️ 핵심 아이디어: "조금만 바꿔보면 어떻게 될까?"

자율주행 AI 는 보통 "이 상황에서는 안전하다"라고 말합니다. 하지만 DRIV-EX 는 이렇게 묻습니다.

"만약 주변 차들의 속도가 아주 조금만 달라졌다면, AI 는 '위험하다'라고 판단하고 차선을 바꿨을까?"

이 '아주 조금의 변화'를 찾아내는 것이 바로 DRIV-EX 의 임무입니다. 이를 통해 AI 가 어떤 사소한 정보에 너무 민감하게 반응하는지, 혹은 어떤 위험한 편견을 가지고 있는지 찾아낼 수 있습니다.

🎨 비유로 이해하기: "요리사와 레시피"

이 복잡한 기술을 쉽게 이해하기 위해 **요리사 (AI)**와 **레시피 (입력 데이터)**를 비유로 들어볼까요?

상황: 요리사 (AI) 가 "이 재료를 섞으면 맛있는 스프가 나온다 (안전한 주행)"라고 말합니다.
문제: 우리는 "어떤 재료를 조금만 바꾸면 스프가 맛이 없어져서 (위험한 주행) 요리사가 거절할까?"를 알고 싶습니다.
기존 방법의 실패:
- 방법 A (수학적 계산): 재료를 수학적으로 아주 정밀하게 계산해서 섞어보려 했지만, 결과물이 "흙탕물"처럼 엉망이 되어버렸습니다. (텍스트가 깨져서 읽을 수 없음)
- 방법 B (임의 변경): 재료를 임의로 바꿔봤지만, 요리사가 "아, 이건 스프가 아니야"라고 말하기 전에 이미 너무 많이 바꿔버려서 원래의 맛을 잃었습니다. (원래 상황과 너무 달라짐)
DRIV-EX 의 해결책:
- DRIV-EX 는 먼저 수학적으로 '맛이 변하는 지점'을 계산합니다. (예: "소금 0.1g 만 더 들어가면 맛이 변함")
- 하지만 그 수학적 숫자를 그대로 쓰지 않습니다. 대신 그 숫자를 요리사에게 "조금만 소금을 더 넣으세요"라고 귀띔합니다.
- 요리사는 그 조언을 듣고 자연스럽게 레시피를 다시 작성합니다.
- 결과: "소금이 0.1g 더 들어간 맛있는 스프"가 만들어집니다. (원래와 비슷하지만, AI 의 결정은 완전히 바뀜)

이처럼 DRIV-EX 는 수학적 계산의 정확성과 자연스러운 언어 생성의 유연함을 동시에 잡은 것입니다.

🔍 DRIV-EX 가 찾아낸 놀라운 사실들

이 방법을 실제 고속도로 주행 데이터에 적용해 보니 AI 의 숨겨진 약점들이 드러났습니다.

편견 발견: AI 는 "옆 차의 속도가 100km/h 라면 안전하지만, 101km/h 라면 위험하다"라고 판단하는 등, 숫자의 끝자락이나 차의 종류 (트럭 vs 승용차) 같은 사소한 정보에 지나치게 의존하고 있었습니다.
위험한 결정: AI 는 물리적으로 충돌할 상황에서도 "차선을 유지하자"라고 고집할 때가 있었습니다. DRIV-EX 는 "옆 차의 속도를 5km/h 만 줄여봐도 AI 는 차선을 바꾸겠다고 한다"는 사실을 찾아냈습니다. 이는 AI 가 실제 물리 법칙보다는 데이터의 패턴에 맹목적으로 반응하고 있음을 보여줍니다.

🛡️ 왜 이것이 중요한가요?

지금까지 AI 의 결정을 설명할 때 "AI 가 이렇게 생각했기 때문입니다"라는 말만 했다면, DRIV-EX 는 **"만약에 이 부분이 조금만 달랐다면 AI 는 완전히 다르게 행동했을 것입니다"**라고 구체적으로 보여줍니다.

안전한 자율주행: AI 가 어떤 상황에서 실패할지 미리 찾아내서, 그 약점을 고칠 수 있습니다.
투명한 AI: AI 가 왜 그런 결정을 내렸는지, 어떤 '사소한 것'에 흔들리는지 알 수 있게 되어 신뢰를 줄 수 있습니다.

🚀 결론

DRIV-EX 는 자율주행 AI 를 테스트하는 **'가상 사고 실험실'**과 같습니다. 실제로 사고가 나기 전에, "만약에..."라는 질문을 통해 AI 의 두뇌를 점검하고, 더 안전하고 똑똑한 자율주행 시스템을 만드는 데 기여합니다.

이 기술은 AI 가 단순히 "정답"을 외우는 것이 아니라, 상황을 올바르게 이해하도록 돕는 중요한 열쇠가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

DRIV-EX: 자율주행 LLM 을 위한 반사실적 설명 (Counterfactual Explanations) 기술 요약

이 논문은 자율주행 시스템에서 의사결정 엔진으로 활용되는 대규모 언어 모델 (LLM) 의 불투명한 의사결정 과정을 해석하기 위해 DRIV-EX라는 새로운 방법을 제안합니다. DRIV-EX 는 시나리오 설명에 필요한 최소한의 의미론적 변경을 식별하여 모델의 주행 계획 (결정) 을 반전시키는 **반사실적 설명 (Counterfactual Explanations)**을 생성하는 것을 목표로 합니다.

1. 문제 정의 (Problem)

자율주행 분야에서 LLM 과 비전 - 언어 모델 (VLM) 이 점차 핵심적인 계획자 (Planner) 로 사용되고 있습니다. 기존 블랙박스 신경망 계획자와 달리 LLM 은 자연어 설명 (예: Chain-of-Thought) 을 제공하지만, 최근 연구들은 이러한 설명이 실제 예측을 이끄는 특징을 반영하지 않는 '사후 합리화 (post-hoc rationalization)'일 수 있음을 지적합니다.
안전이 중요한 자율주행 영역에서, 모델이 왜 위험한 결정을 내렸는지 이해하기 위해서는 입력 요인의 인과적 관계를 명확히 규명해야 합니다. 이를 위해 "어떤 최소한의 입력 변경이 안전했던 상황을 사고 (충돌) 로 바꾸는가?"를 찾는 반사실적 설명이 필요하지만, 텍스트 공간에서의 이산적 최적화 문제는 매우 어렵습니다.

2. 방법론: DRIV-EX (Methodology)

DRIV-EX 는 연속적인 최적화의 강력한 탐색 능력과 이산적 텍스트 생성의 유창함을 결합하여, **반사실적 탐색과 생성을 분리 (Decoupling)**하는 혁신적인 접근법을 제시합니다.

핵심 아이디어

기존의 그라디언트 기반 방법 (Soft Prompt Optimization) 은 연속 임베딩을 최적화하지만, 이를 다시 이산 어휘로 변환할 때 일관성 없는 텍스트가 생성되는 문제가 있습니다. 반면, 이산적 검색 방법은 유창하지만 효율적인 결정 경계 탐색이 어렵습니다. DRIV-EX 는 이 두 가지의 장점을 결합합니다.

알고리즘 단계

연속 임베딩 최적화 (Continuous Embedding Optimization):
- 입력 텍스트의 토큰을 연속적인 소프트 임베딩 (Soft Embeddings) 으로 초기화합니다.
- 목표 결정 (예: '안전'에서 '충돌'로 변경) 을 유도하기 위해 그라디언트 하강법을 사용하여 임베딩을 업데이트합니다. 이때 Straight-Through Estimator를 사용하여 이산적 프로젝션 단계를 우회하고 그라디언트를 전파합니다.
- 이 단계는 최적의 '의미론적 방향'을 찾는 데 집중하며, 최종 텍스트를 직접 생성하지는 않습니다.
제어된 디코딩 및 정규화 (Controlled Decoding & Regularization):
- 최적화된 연속 임베딩을 최종 출력으로 사용하지 않고, **의미론적 가이드 (Semantic Guide)**로 활용합니다.
- 사전 훈련된 유창성 모델 (Fluency Model, F) 의 자동회귀적 (Autoregressive) 생성 과정을 이 최적화된 임베딩으로 편향 (Bias) 시킵니다.
- 편향 (Bias) 계산: 최적화된 임베딩과 원본 입력 간의 거리를 계산하여 어휘 확률에 편향을 가합니다. 이는 생성된 텍스트가 원본과 의미적으로 가깝고 (Proximity), 문법적으로 유창하며 (Fluency), 동시에 목표 결정을 유도하도록 합니다.
- 정규화 전략:
  - Bias: 최적화 임베딩 기반 편향.
  - Proj: 원본 입력의 상위 K 개 이웃 토큰으로 프로젝션 제한.
  - Loss: 원본과의 유사성을 손실 함수에 추가.
후보 선정:
- N 번의 반복 후 생성된 후보들 중, 목표 결정을 성공적으로 유도하면서 원본과 가장 유사한 시나리오를 최종 반사실적 설명으로 선택합니다.

3. 주요 기여 (Key Contributions)

새로운 프레임워크 제안: 그라디언트 기반 탐색과 자동회귀 생성을 분리하여, 유창하고 의미적으로 타당한 반사실적 텍스트를 생성하는 DRIV-EX 를 개발했습니다.
자율주행 LLM 의 취약점 발견: 생성된 반사실적 설명을 통해 LLM 기반 주행 에이전트가 안전하지 않은 결정에 이르는 **잠재적 편향 (Latent Biases)**을 구체적으로 드러냈습니다.
- 예: 횡방향 속도 ( $v_y$ ) 값의 미세한 변화가 차선 변경 결정에 과도하게 영향을 미치는 것을 발견.
편향 완화 및 안전성 향상: 발견된 편향을 제거하거나 수정하여 모델을 재학습시켰을 때, 충돌 횟수가 감소하고 안전성이 향상됨을 실험적으로 증명했습니다.

4. 실험 결과 (Results)

데이터셋 및 모델: textual highD 데이터셋 (실제 고속도로 주행 데이터) 과 LC-LLM (Lane Change LLM) 플랜터를 사용하여 평가했습니다. Llama3, Mistral, Qwen2.5 등 다양한 LLM 에서 테스트했습니다.
성능 비교: 기존 베이스라인 (DAB, PEZ 등) 과 비교하여 DRIV-EX 가 **유효성 (Validity), 유창성 (Fluency), 유사성 (Similarity)**을 모두 만족하는 반사실적 설명을 훨씬 더 높은 성공률로 생성했습니다.
- Llama3 기준, DRIV-EX 는 집계 점수 (Aggregated Score) 에서 61.3% 를 기록하여 기존 방법들 (DAB: 33.3%, PEZ: 45.3%) 보다 우월했습니다.
편향 탐지 능력:
- 인위적 편향 (Injected Biases): 차량 유형 (car/truck) 이나 속도 소수점 자릿수에 따른 편향을 모델에 주입했을 때, DRIV-EX 는 해당 편향 토큰을 정확히 식별하고 수정하여 의사결정을 반전시켰습니다.
- 미탐지 편향 (Unknown Biases): 실제 데이터에서 발견되지 않았던 편향 (예: 특정 횡방향 속도 값이 우회전 결정과 강하게 연관됨) 을 찾아냈습니다.
안전성 개선: 발견된 편향 (횡방향 속도 의존성) 을 제거한 모델을 학습시켰을 때, 충돌 사고는 줄어들었지만 궤적 예측 정확도는 약간 하락하는 트레이드오프가 관찰되었습니다. 이는 편향 제거가 안전성 향상에 기여함을 시사합니다.

5. 의의 및 결론 (Significance)

해석 가능성의 실질적 진전: LLM 기반 자율주행 시스템의 '블랙박스' 문제를 해결하기 위해, 단순히 설명을 제공하는 것을 넘어 결정 경계를 직접 탐색하고 검증하는 도구를 제공합니다.
안전 감사 (Safety Auditing) 도구: DRIV-EX 는 모델이 어떤 극단적인 상황 (Edge Cases) 에서 실패하는지 자동으로 발견하여, 개발자가 모델의 취약점을 사전에 파악하고 보정할 수 있게 합니다.
이중 사용 (Dual Use) 위험에 대한 경고: 이 기술은 안전성을 높이기 위해 고안되었지만, 이론적으로는 자율주행 시스템을 공격하는 적대적 예제 (Adversarial Examples) 생성에도 악용될 수 있음을 인정하며, 이러한 취약점 발견이 방어 체계 구축의 전제 조건임을 강조합니다.

결론적으로, DRIV-EX 는 LLM 기반 자율주행 시스템의 신뢰성을 높이고, 의사결정 로직의 투명성을 확보하기 위한 강력한 해석 가능성 도구로 평가됩니다.

DRIV-EX: Counterfactual Explanations for Driving LLMs