Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Each language version is independently generated for its own context, not a direct translation.

🚗 1. 문제 상황: "망가진 지도"와 "낯선 도시"

자율주행 차는 라이다 센서로 주변을 스캔하고, 그 데이터를 바탕으로 "이건 차야, 저건 사람이다"라고 구분합니다. 이를 3D 시맨틱 분할이라고 합니다.

하지만 현실에는 두 가지 큰 문제가 있습니다.

지도가 엉망이다 (노이즈): 지도를 그리는 사람 (데이터 라벨링 작업자) 이 실수를 하거나, 센서 고장, 가림막 등으로 인해 지도에 잘못된 정보가 섞여 있습니다. 예를 들어, '버스'를 '트럭'으로 잘못 표시해 둔 경우죠.
낯선 도시다 (도메인 일반화): 훈련할 때는 'A 시'의 지도만 봤는데, 실제 운전은 'B 시'나 'C 시'에서 해야 합니다. A 시의 도로와 B 시의 도로는 생김새가 다릅니다.

기존 연구들은 지도가 완벽하다고 가정하고 '낯선 도시'에 적응하는 법만 연구했습니다. 하지만 지도가 엉망인 상태에서 낯선 도시로 가는 법은 거의 연구되지 않았습니다.

🕵️‍♂️ 2. 기존 방법들의 실패: "2D 지도를 3D 에 대입하다"

연구자들은 먼저 이미지 (2D) 분야에서 잘 통하는 '오류 수정 기술'들을 3D 라이다 데이터에 적용해 보았습니다. 하지만 실패했습니다.

이유: 2D 사진은 픽셀이 빽빽하게 차 있지만, 3D 라이다 데이터는 **점 (Point)**으로 이루어져 있고, 점들이 매우 희박하고 불규칙하게 흩어져 있습니다. 마치 2D 사진에 쓰인 교정법을 3D 공간에 있는 구슬 무더기에 적용하려는 것과 같아서, 전혀 맞지 않았습니다.

💡 3. 해결책: "듀네 (DuNe)"라는 새로운 전략

저희는 **'듀네 (DuNe)'**라는 새로운 시스템을 개발했습니다. 듀네는 **두 가지 시선 (Dual-view)**을 가진 탐정 같은 시스템입니다.

🧐 시선 1: "강한 시선" (Strong View) - 과감한 추측

비유: 여러 장의 지도를 잘게 잘라 서로 섞고 (PolarMix), 일부는 일부러 지워버린 뒤, 가장 확실해 보이는 부분을 기준으로 "이건 차야!"라고 강하게 주장하는 시선입니다.
역할: 데이터가 부족하거나 엉망일 때, 모델이 학습할 수 있는 힌트를 최대한 많이 끌어모읍니다.

🧐 시선 2: "약한 시선" (Weak View) - 신중한 확인

비유: 원본 지도를 그대로 두고, 조심스럽게 "이게 정말 차 맞지?"라고 다시 한번 확인하는 시선입니다.
역할: 강한 시선이 너무 과감하게 착각하지 않도록, 두 시선의 결론이 서로 일치하는지 확인합니다.

🤝 두 시선의 협력 (일관성 유지)

듀네는 이 두 시선이 서로 다른 각도에서 보더라도 결론이 일치하도록 훈련시킵니다. 만약 "강한 시선"이 엉뚱한 것을 가르쳐도, "약한 시선"이 "아니야, 그건 아니야"라고 반박하면, 모델은 잘못된 정보를 배우지 않게 됩니다.

또한, **"이건 확실히 A 가 아니야"**라는 부정적인 정보 (Negative Learning) 도 활용합니다. "차"가 아니라고 확신하는 것만으로도 모델은 '차'가 무엇인지 더 잘 배우게 됩니다.

🏆 4. 결과: 엉망인 지도로도 최고의 성능!

이 연구는 SemanticKITTI, nuScenes, SemanticPOSS라는 세 가지 실제 자율주행 데이터셋으로 실험했습니다.

실험 조건: 훈련 데이터의 **10%~50%**를 의도적으로 엉망으로 만들어 (라벨을 틀리게) 훈련시켰습니다.
결과:
- 기존 방법들은 지도가 10%만 엉망이어도 성능이 뚝 떨어졌습니다.
- 하지만 **듀네 (DuNe)**는 50%나 엉망인 지도에서도 놀라운 성능을 유지했습니다.
- 특히, 훈련한 도시 (SemanticKITTI) 에서만 배웠음에도, 전혀 다른 도시 (nuScenes, SemanticPOSS) 에 가서도 가장 높은 점수를 받았습니다.

📝 5. 한 줄 요약

"지도가 엉망이고, 갈 곳도 낯설어도, 두 가지 시선으로 서로를 검증하며 (듀네), 자율주행 차가 길을 잃지 않도록 도와주는 새로운 방법론을 만들었습니다."

이 기술은 향후 자율주행차가 더 안전하고, 다양한 환경에서도 신뢰할 수 있게 작동하는 데 큰 기여를 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 자율주행 차량의 안전을 위해 LiDAR 기반의 3D 시맨틱 분할 (Semantic Segmentation) 은 필수적입니다. 그러나 실제 환경에서는 센서 결함, 가림 (occlusion), 인간 오작동 등으로 인해 라벨 노이즈 (Label Noise) 가 빈번하게 발생합니다.
핵심 문제:
1. 도메인 일반화 (Domain Generalization, DG): 학습된 모델이 보지 못한 새로운 환경 (도메인) 에서도 견고하게 작동해야 합니다.
2. 불완전한 라벨 (Imperfect Labels): 기존 DG 연구는 대부분 '완벽한 라벨'을 가정하지만, 실제 LiDAR 데이터는 노이즈가 포함된 라벨로 학습됩니다.
3. 2D 에서 3D 로의 전이 한계: 이미지 분야에서 성공한 노이즈 라벨 학습 기법 (Noisy-label learning) 들은 점구름 (Point Cloud) 의 희소성 (sparsity), 불규칙성, 순서 없음 (orderless) 특성으로 인해 직접 적용하기 어렵습니다.
목표: 라벨 노이즈와 도메인 시프트 (Domain Shift) 가 동시에 존재하는 상황에서도 견고한 성능을 내는 LiDAR 시맨틱 분할 모델을 개발하는 것입니다. 이를 위해 저자들은 DGLSS-NL (Domain Generalization for LiDAR Semantic Segmentation under Noisy Labels) 이라는 새로운 태스크를 정의하고 벤치마크를 구축했습니다.

2. 제안된 방법론: DuNe (Methodology)

저자는 DuNe (Dual-view framework for learning with Noisy labels in 3D point clouds) 라는 새로운 프레임워크를 제안했습니다. 이는 두 가지 주요 구성 요소를 결합합니다.

A. 듀얼 뷰 아키텍처 (Dual-View Framework)

입력된 LiDAR 스캔을 두 가지 다른 뷰로 증강하여 처리합니다.

강한 뷰 (Strong View): PolarMix 기법을 적용하여 장면 수준의 스와핑 (Swapping) 과 인스턴스 수준의 회전/붙여넣기 (Rotate-paste) 를 수행합니다. 이는 데이터 다양성을 높이고 기하학적 정보를 풍부하게 합니다.
약한 뷰 (Weak View): 원본 스캔에 희소성 증강 (Sparsity Augmentation, 빔 누락 시뮬레이션) 만을 적용하여 구조적 충실도를 유지합니다.

일관성 손실 (Consistency Loss): 강한 뷰와 약한 뷰의 특징 (Feature) 이 일관되도록 Bottleneck 수준에서 정렬을 강제합니다.

B. 노이즈 강인한 학습 전략 (Noise-Robust Learning)

기존 이미지 기반 노이즈 학습 기법 (TCL, DISC, NPN) 을 3D 점구름에 맞게 적응시켰으며, 특히 NPN (Noisy Partial Negative) 전략을 핵심으로 활용합니다.

부분 라벨 학습 (Partial Label Learning, PLL): 예측된 후보 라벨 집합 중 하나를 정답으로 간주하여 학습합니다.
부정 학습 (Negative Learning, NL): 후보 라벨이 아닌 나머지 클래스 (Complementary labels) 에 대해 명시적으로 패널티를 주어 과신 (Overconfidence) 된 노이즈를 억제합니다.
신뢰도 기반 필터링: 예측 신뢰도가 높은 샘플을 기반으로 교차 엔트로피 손실을 적용합니다.

C. 전체 손실 함수

총 손실 함수는 다음과 같이 구성됩니다:
$L_{total} = L_{DGLSS} + L_{NPN} + \lambda L_{FC}$

$L_{DGLSS}$ : 희소성 불변 특징 일관성 (SIFC) 및 시맨틱 상관관계 일관성 (SCC) 포함.
$L_{NPN}$ : 부분 라벨 및 부정 학습 손실.
$L_{FC}$ : 강한 뷰와 약한 뷰 간의 특징 일관성 손실.

3. 주요 기여 (Key Contributions)

DGLSS-NL 벤치마크 구축: 단일 소스 도메인에서 제어된 대칭 노이즈 (Symmetric Noise) 를 주입하여 LiDAR 시맨틱 분할의 도메인 일반화 성능을 평가하는 최초의 벤치마크를 정립했습니다.
기존 기법의 적응 및 진단: TCL, DISC, NPN 등 이미지 분야의 대표 노이즈 학습 기법을 3D LiDAR 데이터에 성공적으로 이식하여 베이스라인으로 설정하고, 3D 데이터의 특성 (희소성, 배치 내 점 수 변동 등) 으로 인한 한계를 분석했습니다.
DuNe 프레임워크 제안: 기하학적 인식을 강화한 강한 뷰와 구조적 일관성을 유지하는 약한 뷰를 결합하고, 노이즈 인식 감독 (Noise-aware supervision) 을 도입하여 라벨 오염과 도메인 시프트에 동시에 강인한 모델을 개발했습니다.

4. 실험 결과 (Results)

실험은 SemanticKITTI (학습), nuScenes, SemanticPOSS (테스트) 데이터셋을 사용하여 수행되었으며, 대칭 노이즈 비율 (10%, 20%, 50%) 에 따라 평가되었습니다.

성능 향상: DuNe 은 모든 노이즈 수준과 데이터셋에서 기존 방법론 (TCL, DISC, NPN) 및 베이스라인 (DGLSS) 을 압도적으로 능가했습니다.
- 10% 노이즈 조건: SemanticKITTI 에서 56.86% mIoU, nuScenes 에서 42.28%, SemanticPOSS 에서 52.58% 를 기록했습니다.
- 평균 성능: 10% 노이즈 조건에서 산술 평균 (AM) 49.57%, 조화 평균 (HM) 48.50% 를 달성하여, 깨끗한 라벨로 학습한 모델의 성능에 근접하는 견고함을 입증했습니다.
고노이즈 환경에서의 강인성: 50% 의 심각한 노이즈가 존재할 때도 DuNe 은 다른 방법론들이 붕괴되는 것과 달리 유의미한 성능 (SemanticKITTI 52.37%) 을 유지했습니다.
시각화 결과: 정성적 평가에서 DuNe 은 노이즈가 심한 환경에서도 클래스 간 분포가 균형 잡히고 일관된 분할 결과를 보여주었습니다.

5. 의의 및 결론 (Significance)

실제 적용 가능성: 자율주행 시스템의 실제 배포 환경에서는 완벽한 라벨링이 불가능하므로, 본 연구에서 제안한 '노이즈가 있는 라벨'과 '도메인 시프트'를 동시에 고려하는 접근법은 시스템의 신뢰성을 높이는 데 필수적입니다.
3D 학습의 새로운 방향: 2D 이미지 기반의 노이즈 학습 기법이 3D 점구름에 직접 적용되기 어렵다는 점을 지적하고, 점구름의 기하학적 특성을 반영한 전용 프레임워크 (DuNe) 의 필요성을 증명했습니다.
향후 연구의 기반: 구축된 DGLSS-NL 벤치마크와 DuNe 프레임워크는 향후 자율주행용 LiDAR 인식 기술의 발전과 노이즈 강인성 연구의 표준적인 기준 (Benchmark) 으로 활용될 것으로 기대됩니다.

요약하자면, 이 논문은 LiDAR 데이터의 불완전한 라벨과 도메인 차이로 인한 성능 저하 문제를 해결하기 위해, 듀얼 뷰 일관성과 부정 학습을 결합한 새로운 프레임워크 'DuNe'을 제안하고, 이를 통해 다양한 환경에서 최첨단 (SOTA) 성능을 입증한 연구입니다.