Beyond Fixed Thresholds and Domain-Specific Benchmarks for Explainable… — 쉬운 설명

원저자: Maryam Sadat Hosseini Azad, Shahriar Baradaran Shokouhi

게시일 2026-05-07

📖 3 분 읽기☕ 가벼운 읽기

원저자: Maryam Sadat Hosseini Azad, Shahriar Baradaran Shokouhi

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

자동차를 운전하는 로봇을 가르친다고 상상해 보세요. 로봇이 단순히 무엇을 해야 하는지 (예: "정지" 또는 "좌회전") 아는 것뿐만 아니라, 왜 그렇게 하는지 (예: "보행자가 있기 때문" 또는 "신호등이 빨간색이기 때문") 도 설명할 수 있기를 원합니다. 이것이 자율주행차에서 **설명 가능한 인공지능 (Explainable AI)**의 목표입니다.

그러나 이 논문의 저자들이 발견한 두 가지 큰 문제가 있습니다:

"일률적 규칙" (One-Size-Fits-All Rule): 대부분의 로봇은 "50% 이상 확신하면 결정을 내린다"는 경직된 규칙으로 프로그래밍되어 있습니다. 저자들은 이를 "고정 임계값 (fixed threshold)"이라고 부릅니다. 그들은 이것이 인간에게 "비가 올 확률이 50%라면 우산을 챙겨라"라고 말하는 것과 같다고 주장합니다. 이는 잘 작동하지 않습니다! 때로는 행동하기 전에 90% 확신이 필요할 때도 있고 (예: 어린이를 위해 정지), 때로는 50%로도 충분할 때도 있습니다. 이 논문은 모든 상황에 단일한 50% 규칙을 사용하면 로봇이 더 많은 실수를 저지른다는 것을 보여줍니다.
훈련 데이터의 "서구 편향": 대부분의 로봇은 캘리포니아나 독일과 같은 곳의 데이터로 훈련됩니다. 하지만 이란의 테헤란에서 운전하는 것은 매우 다릅니다. 오토바이가 더 많고, 교통 습관이 다르며, 도로 구조도 다릅니다. 로봇을 서구 도로에서만 훈련시킨다면, 혼란스러운 중동 거리를 볼 때 혼란을 겪을 수 있습니다.

다음은 저자들이 이러한 문제들을 어떻게 해결했는지, 간단히 설명한 것입니다:

1. "신뢰도 다이얼" (임계값) 조정하기

로봇의 뇌를 각 결정마다 볼륨 다이얼을 가진 것처럼 생각하세요.

옛 방식: 모든 사람이 다이얼을 정확히 "5"(50% 신뢰도) 로 맞추고 다시는 건드리지 않았습니다.
새 방식: 저자들은 다이얼을 1 에서 10 까지의 모든 설정으로 테스트했습니다. 그들은 일부 작업 (예: "정지" 결정) 에는 다이얼을 "3"(30% 신뢰도) 으로 설정했을 때 로봇이 가장 잘 작동한다는 것을 발견했습니다. 다른 작업 (예: 왜 멈췄는지 설명) 에는 "4"(40%) 가 더 좋습니다.

비유: 신분증을 확인하는 보안 요원이라고 상상해 보세요.

너무 엄격하면 (높은 임계값), 친절한 사람이라도 아무도 들어오지 못하게 합니다 (좋은 기회를 놓칩니다).
너무 느슨하면 (낮은 임계값), 나쁜 행위자를 포함해 모두 들어오게 합니다 (위험한 실수를 합니다).
저자들은 서로 다른 유형의 "나쁜 행위자" (서로 다른 운전 작업) 에 대해 서로 다른 엄격도 수준이 필요하다는 것을 발견했습니다. 각 특정 작업에 대해 "엄격도 다이얼"을 조정함으로써 로봇은 훨씬 더 똑똑하고 안전하게 되었습니다.

2. 새로운 "중동 운전 학교" (데이터셋)

저자들은 기존 운전 데이터셋이 유럽의 빈 직선 고속도로에서만 운전하는 법을 가르치는 운전 학교와 같다는 것을 깨달았습니다. 그들은 이란의 붐비는 혼란스러운 시장 거리에서 운전하는 법을 가르치지 않았습니다.

해결책: 그들은 IUST-XAI-AD라는 새로운 데이터셋을 만들었습니다.
내용: 이란 콰에서 촬영된 958 개의 실제 사진입니다.
특별한 점: 비디오 게임의 "하드 모드" 레벨과 같습니다. 표준 데이터셋보다 오토바이, 보행자, 복잡한 교통 패턴이 훨씬 더 많습니다.
결과: 로봇을 이 새로운 "하드 모드"에서 테스트했을 때, 쉬운 유럽 도로에서보다 더 어려움을 겪었습니다. 이는 새로운 데이터셋이 로봇이 정말로 현실 세계에 준비되었는지 확인하기 위한 더 나은, 더 힘든 테스트임을 증명합니다.

3. "무엇"만큼이나 "왜"도 중요합니다

로봇은 두 가지 일을 동시에 수행해야 합니다:

행동: "차를 정지시키다."
이유: "사람이 건너가고 있기 때문입니다."

저자들은 로봇이 실제로 이유 (왜?) 를 추측하는 것보다 행동 (정지/진행) 을 추측하는 데 더 능숙하다는 것을 발견했습니다. 마치 정답이 참인지 거짓인지 묻는 질문에는 쉽게 답할 수 있지만, 왜 그 답이 참인지 설명하는 에세이를 쓰기는 어려워하는 학생과 같습니다. 그들은 새로운 "조정된 다이얼" (임계값) 을 사용하여 로봇이 행동과 설명 모두에서 더 잘하도록 도왔습니다.

결론

논문의 핵심은 다음과 같습니다:

모든 것에 동일한 50% 규칙을 사용하지 마십시오. 특정 작업에 따라 신뢰도 수준을 조정하십시오.
로봇을 서구 도로에서만 테스트하지 마십시오. 로봇이 정말로 안전한지 확인하려면 중동과 같은 다양하고 혼란스러운 도로에서 테스트해야 합니다.
설명 가능성이 핵심입니다. 자율주행차는 단순히 기계가 아닙니다. 인간이 이를 신뢰할 수 있도록 결정의 이유를 설명할 수 있어야 합니다.

"다이얼"을 조정하고 "더 힘든 도로"에서 테스트함으로써, 저자들은 캘리포니아와 같은 곳뿐만 아니라 전 세계 어디서나 신뢰할 수 있는 자율주행차를 위한 더 나은 기반을 마련했습니다.

Each language version is independently generated for its own context, not a direct translation.

기술 요약: 자율주행 차량을 위한 설명 가능한 다중 작업 분류를 위한 고정 임계값 및 도메인 특화 벤치마크를 넘어선 접근

문제 제기
자율주행 시스템은 종종 "블랙박스"인 딥러닝 모델에 의존하며, 안전이 중요한 배포와 인간의 신뢰를 위해 필요한 투명성이 부족합니다. 다중 작업 학습 프레임워크가 주행 행동과 그 근본적인 추론을 동시에 예측하기 위해 등장했으나 (설명 가능한 인공지능 또는 XAI), 기존 접근법은 두 가지 주요 한계에 직면해 있습니다. 첫째, 이러한 접근법은 주로 연속적인 모델 출력을 이산적 예측으로 변환하기 위해 고정된 신뢰도 임계값 (일반적으로 0.5) 에 의존합니다. 이러한 "일괄 적용" 방식은 서로 다른 예측 작업에 내재된 다양한 복잡성과 클래스 불균형을 무시하여, 최적이지 않은 성능이나 안전 위험을 초래할 수 있습니다. 둘째, 베를리 딥 드라이브 (BDD-OIA) 와 nuScenes 행동 및 이유 (nu-AR) 와 같은 기존 평가 벤치마크는 서구권의 주행 상황에 치우쳐 있습니다. 이러한 문화적 다양성의 부재는 전 세계, 특히 중동 지역에서 발견되는 다양한 교통 패턴, 도로 인프라, 그리고 주행 행태에 대한 모델의 일반화 능력을 평가하는 것을 제한합니다.

방법론
저자들은 이러한 격차를 해결하기 위해 두 가지 측면의 방법론적 진보를 제안합니다:

신뢰도 임계값 민감도 분석:
정적 임계값을 사용하는 대신, 저자들은 다중 작업 분류를 위한 결정 경계를 최적화하기 위한 체계적인 프레임워크를 도입합니다. 그들은 행동 ( $\tau_A$ ) 과 이유 ( $\tau_R$ ) 에 대해 별도의 신뢰도 임계값을 정의하고, 0.1 의 간격으로 [0, 1] 범위에 걸쳐 그리드 검색을 수행합니다. 이 프레임워크는 F1-행동-전체, F1-행동-평균, F1-이유-전체, F1-이유-평균이라는 네 가지 서로 다른 지표를 평가합니다. 이를 통해 행동과 이유 예측이 서로 다른 신뢰도 수준을 필요로 할 수 있음을 인정하면서, 특정 작업의 성능을 극대화하는 최적의 임계값 쌍을 식별할 수 있습니다.
IUST-XAI-AD 데이터셋 구축:
문화적으로 다양한 벤치마크의 부재를 해결하기 위해, 저자들은 IUST-XAI-AD 데이터셋을 소개합니다. 이란 콤에서 수집된 이 데이터셋은 다양한 조명 조건 하에 촬영된 958 개의 대시캠 이미지로 구성됩니다. 각 이미지는 전문가들이 다음 항목으로 수동 주석을 다는 작업을 수행했습니다:
- 행동 레이블: 4 가지 카테고리 (전진, 정지/감속, 좌회전, 우회전).
- 이유 레이블: 주행 결정을 설명하는 21 가지 카테고리 (예: "장애물: 사람", "신호등이 녹색").
  이 데이터셋은 보행자, 오토바이 탑승자, 차량의 밀도를 고려한 가중 점수 ( $C$ ) 를 사용하여 복잡성을 분석하며, 더 높은 위험 프로필을 반영하기 위해 취약한 도로 사용자 (보행자와 오토바이 탑승자) 에 더 높은 가중치를 부여합니다.

주요 기여
본 논문은 세 가지 상호 연결된 기여를 제시합니다:

체계적인 임계값 최적화: 고정된 임계값이 다중 작업 시나리오에 최적이지 않음을 입증합니다. 저자들은 작업별 최적 임계값을 식별하는 방법론을 제공하며, 행동과 이유 작업 간의 성능 정점이 크게 달라질 수 있음을 밝힙니다.
새로운 벤치마크 (IUST-XAI-AD): 페르시아어권 주행 상황에 맞춰 설계된 설명 가능한 컴퓨터 비전을 위한 데이터셋을 도입합니다. 이 데이터셋은 기존 벤치마크의 문화적 및 지역적 편향을 해결하며, 더 높은 객체 밀도와 독특한 교통 패턴을 가진 더 까다로운 환경을 제공합니다.
포괄적인 교차 컨텍스트 검증: 이전에 제안된 어텐션 기반 다중 작업 모델을 세 가지 데이터셋 (BDD-OIA, nu-AR, IUST-XAI-AD) 에서 광범위하게 평가합니다. 여기에는 모델 성능, 복잡성 지표, 그리고 특징 임베딩에 대한 비교 분석이 포함되어 서로 다른 문화적 환경에서의 견고성을 평가합니다.

실험 결과

임계값 민감도: BDD-OIA 데이터셋에 대한 분석은 기존의 0.5 임계값이 최적이지 않음을 보여줍니다. 피크 F1-행동-전체 점수는 0.3 의 임계값에서 발생하며 (71.85%), 피크 F1-이유-전체 점수는 0.4 에서 발생합니다 (54.77%). 연구는 모든 지표가 피크 값의 1% 이내로 유지되는 0.3 에서 0.5 사이의 "견고한 작동 영역"을 식별하여, 튜닝이 유익하지만 일련의 임계값들이 거의 최적의 결과를 산출할 수 있음을 시사합니다.
데이터셋 복잡성: IUST-XAI-AD 데이터셋은 BDD-OIA (0.8062) 와 nu-AR (0.5752) 에 비해 현저히 높은 복잡성 (점수 2.0038) 을 보입니다. 이는 차량 밀도 (이미지당 1.66 대, BDD-OIA 의 0.70 대 대비) 가 높고, 오토바이 탑승자 밀도 (이미지당 0.164 명, 서구권 데이터셋보다 19~24 배 높음) 가 극적으로 높기 때문이며, 이는 중동 도시에서 흔히 볼 수 있는 혼합 교통 상황을 반영합니다.
모델 성능: IUST-XAI-AD 에서 테스트되었을 때, 저자들의 어텐션 기반 모델은 12 개 지표 중 9 개에서 NLE-DM 베이스라인을 능가했습니다. 그러나 전반적인 성능 지표 (F1 점수) 는 BDD-OIA 에 비해 IUST-XAI-AD 에서 현저히 하락하여, 문화적 및 환경적 차이가 현재 모델들이 특정 적응 없이 일반화하는 데 어려움을 겪는 근본적으로 새로운 도전을 제시함을 나타냅니다.
특징 분석: 학습된 특징에 대한 t-SNE 시각화는 모델이 행동 클래스와 환경적 컨텍스트 (예: 교통 인프라와 동적 장애물 분리) 모두에 따라 데이터를 성공적으로 클러스터링함을 보여주지만, 일부 중첩은 여전히 존재합니다.

의의 및 주장
본 논문은 방법론적 도구와 실용적 평가 자원을 모두 제공함으로써 자율주행을 위한 설명 가능한 다중 작업 학습의 최첨단 기술을 발전시켰다고 주장합니다.

방법론적: 고정 임계값 설정의 표준 관행에 도전하며, 임계값 선택은 정적 최적화 문제가 아니라 정밀도와 재현율의 균형과 같은 특정 운영 우선순위에 기반한 설계 선택이어야 한다고 주장합니다.
실용적: IUST-XAI-AD 데이터셋은 자율 시스템의 교차 문화적 일반화를 평가하는 데 중요한 도구 역할을 하며, 단일 도메인 평가가 놓치는 모델 견고성의 체계적 격차를 부각시킵니다.
광범위한 영향: 저자들은 그들의 종합적인 기여가 전 세계 배포에 적합한 더 신뢰할 수 있고, 설명 가능하며, 문화적으로 적응된 자율주행 시스템 개발을 가속화한다고 주장합니다. 그들은 이러한 시스템의 진정한 안전성과 견고성을 평가하기 위해 다양한 컨텍스트에 대한 포괄적인 검증이 필수적임을 강조합니다.

본 논문은 현재의 작업이 문화적 다양성과 임계값 최적화를 위한 기준선을 확립했지만, 향후 연구는 악천후 조건에 대한 미세 조정과 임계값 민감도를 구체적으로 조사하고, 지리적으로 다양한 데이터셋의 더 넓은 범위로 평가를 확장해야 한다고 결론지었습니다.

Beyond Fixed Thresholds and Domain-Specific Benchmarks for Explainable Multi-Task Classification in Autonomous Vehicles

1. "신뢰도 다이얼" (임계값) 조정하기

2. 새로운 "중동 운전 학교" (데이터셋)

3. "무엇"만큼이나 "왜"도 중요합니다

결론

유사한 논문