Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

이 논문은 LiDAR 기반 3D 의미 분할에서 노이즈가 있는 라벨과 도메인 일반화 문제를 동시에 해결하기 위해 제안된 듀얼 뷰 프레임워크 'DuNe'를 소개하며, 기존 방법들의 한계를 극복하고 여러 데이터셋에서 최첨단 성능을 입증합니다.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚗 1. 문제 상황: "망가진 지도"와 "낯선 도시"

자율주행 차는 라이다 센서로 주변을 스캔하고, 그 데이터를 바탕으로 "이건 차야, 저건 사람이다"라고 구분합니다. 이를 3D 시맨틱 분할이라고 합니다.

하지만 현실에는 두 가지 큰 문제가 있습니다.

  1. 지도가 엉망이다 (노이즈): 지도를 그리는 사람 (데이터 라벨링 작업자) 이 실수를 하거나, 센서 고장, 가림막 등으로 인해 지도에 잘못된 정보가 섞여 있습니다. 예를 들어, '버스'를 '트럭'으로 잘못 표시해 둔 경우죠.
  2. 낯선 도시다 (도메인 일반화): 훈련할 때는 'A 시'의 지도만 봤는데, 실제 운전은 'B 시'나 'C 시'에서 해야 합니다. A 시의 도로와 B 시의 도로는 생김새가 다릅니다.

기존 연구들은 지도가 완벽하다고 가정하고 '낯선 도시'에 적응하는 법만 연구했습니다. 하지만 지도가 엉망인 상태에서 낯선 도시로 가는 법은 거의 연구되지 않았습니다.

🕵️‍♂️ 2. 기존 방법들의 실패: "2D 지도를 3D 에 대입하다"

연구자들은 먼저 이미지 (2D) 분야에서 잘 통하는 '오류 수정 기술'들을 3D 라이다 데이터에 적용해 보았습니다. 하지만 실패했습니다.

  • 이유: 2D 사진은 픽셀이 빽빽하게 차 있지만, 3D 라이다 데이터는 **점 (Point)**으로 이루어져 있고, 점들이 매우 희박하고 불규칙하게 흩어져 있습니다. 마치 2D 사진에 쓰인 교정법을 3D 공간에 있는 구슬 무더기에 적용하려는 것과 같아서, 전혀 맞지 않았습니다.

💡 3. 해결책: "듀네 (DuNe)"라는 새로운 전략

저희는 **'듀네 (DuNe)'**라는 새로운 시스템을 개발했습니다. 듀네는 **두 가지 시선 (Dual-view)**을 가진 탐정 같은 시스템입니다.

🧐 시선 1: "강한 시선" (Strong View) - 과감한 추측

  • 비유: 여러 장의 지도를 잘게 잘라 서로 섞고 (PolarMix), 일부는 일부러 지워버린 뒤, 가장 확실해 보이는 부분을 기준으로 "이건 차야!"라고 강하게 주장하는 시선입니다.
  • 역할: 데이터가 부족하거나 엉망일 때, 모델이 학습할 수 있는 힌트를 최대한 많이 끌어모읍니다.

🧐 시선 2: "약한 시선" (Weak View) - 신중한 확인

  • 비유: 원본 지도를 그대로 두고, 조심스럽게 "이게 정말 차 맞지?"라고 다시 한번 확인하는 시선입니다.
  • 역할: 강한 시선이 너무 과감하게 착각하지 않도록, 두 시선의 결론이 서로 일치하는지 확인합니다.

🤝 두 시선의 협력 (일관성 유지)

듀네는 이 두 시선이 서로 다른 각도에서 보더라도 결론이 일치하도록 훈련시킵니다. 만약 "강한 시선"이 엉뚱한 것을 가르쳐도, "약한 시선"이 "아니야, 그건 아니야"라고 반박하면, 모델은 잘못된 정보를 배우지 않게 됩니다.

또한, **"이건 확실히 A 가 아니야"**라는 부정적인 정보 (Negative Learning) 도 활용합니다. "차"가 아니라고 확신하는 것만으로도 모델은 '차'가 무엇인지 더 잘 배우게 됩니다.

🏆 4. 결과: 엉망인 지도로도 최고의 성능!

이 연구는 SemanticKITTI, nuScenes, SemanticPOSS라는 세 가지 실제 자율주행 데이터셋으로 실험했습니다.

  • 실험 조건: 훈련 데이터의 **10%~50%**를 의도적으로 엉망으로 만들어 (라벨을 틀리게) 훈련시켰습니다.
  • 결과:
    • 기존 방법들은 지도가 10%만 엉망이어도 성능이 뚝 떨어졌습니다.
    • 하지만 **듀네 (DuNe)**는 50%나 엉망인 지도에서도 놀라운 성능을 유지했습니다.
    • 특히, 훈련한 도시 (SemanticKITTI) 에서만 배웠음에도, 전혀 다른 도시 (nuScenes, SemanticPOSS) 에 가서도 가장 높은 점수를 받았습니다.

📝 5. 한 줄 요약

"지도가 엉망이고, 갈 곳도 낯설어도, 두 가지 시선으로 서로를 검증하며 (듀네), 자율주행 차가 길을 잃지 않도록 도와주는 새로운 방법론을 만들었습니다."

이 기술은 향후 자율주행차가 더 안전하고, 다양한 환경에서도 신뢰할 수 있게 작동하는 데 큰 기여를 할 것으로 기대됩니다.