SiMO: Single-Modality-Operable Multimodal Collaborative Perception

이 논문은 센서 고장 시에도 단일 모드만으로 작동할 수 있도록 길이 적응형 멀티모달 융합 (LAMMA) 과 'Pretrain-Align-Fuse-RD'학습 전략을 도입하여 협업 인식의 성능을 유지하는 SiMO 를 제안합니다.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

시모 (SiMO): 자율주행차의 '불가사리' 같은 눈과 귀

이 논문은 자율주행차나 로봇이 서로 협력하여 주변을 인식하는 기술, 즉 **'협력 지각 (Collaborative Perception)'**에 대한 새로운 아이디어를 제시합니다. 기존 방법들의 치명적인 약점을 해결하고, 어떤 센서가 고장 나더라도 시스템이 멈추지 않도록 만든 혁신적인 방법론인 SiMO를 소개합니다.

이 내용을 쉽게 이해할 수 있도록 일상적인 비유로 설명해 드리겠습니다.


1. 문제 상황: "연쇄 폭탄" 같은 기존 시스템

기존의 다중 센서 (라이다, 카메라 등) 협력 시스템은 마치 여러 개의 전구가 직렬로 연결된 전선과 같았습니다.

  • 상황: 자율주행차 A 는 라이다 (레이저) 와 카메라를 모두 켜고, 옆차 B 는 카메라만 켜고 협력합니다.
  • 문제: 만약 차 A 의 라이다가 갑자기 고장 나면? 직렬 회로처럼 시스템 전체가 꺼져버립니다.
  • 이유: 기존 기술은 라이다와 카메라의 정보를 섞어서 (퓨전) 하나의 새로운 '혼합된 정보'를 만들었습니다. 그런데 라이다가 사라지면 이 '혼합된 정보'를 만들 수 없게 되고, 그 결과로 만들어진 데이터는 하위 시스템 (운전 결정 등) 이 이해할 수 없는 '헛된 소리'가 되어버립니다. 마치 레시피에 '달걀'이 필수인데 달걀이 떨어졌을 때, 요리사가 "이제 요리를 할 수 없다"고 포기하는 것과 같습니다.

2. SiMO 의 해결책: "병렬 회로"와 "가족의 유사성"

저자들은 이 문제를 해결하기 위해 SiMO라는 시스템을 제안합니다. 이는 병렬 회로처럼 작동합니다.

  • 비유: 여러 개의 전구가 병렬로 연결되어 있다면, 하나라도 고장 나도 나머지 전구는 여전히 빛납니다. SiMO 는 라이다가 고장 나면 카메라만으로, 카메라가 고장 나면 라이다만으로 완벽하게 작동할 수 있게 설계되었습니다.
  • 핵심 철학 (비트겐슈타인의 '가족 유사성'):
    • 기존 방식은 "라이다가 보는 차"와 "카메라가 보는 차"를 완전히 똑같은 하나의 개념으로 합치려 했습니다 (플라톤의 본질주의).
    • SiMO 는 **"서로 다른 가족 구성원"**처럼 접근합니다. 라이다가 본 차와 카메라가 본 차는 생김새 (데이터 형태) 는 다르지만, '차'라는 공통된 특징을 공유합니다.
    • SiMO 는 이 두 정보를 완전히 섞어서 없애버리는 대신, 서로 다른 특징을 유지하면서도 서로의 의미를 이해할 수 있게 정렬시킵니다. 그래서 라이다가 사라져도 카메라 정보가 여전히 '차'라는 의미를 제대로 전달할 수 있습니다.

3. SiMO 의 두 가지 핵심 기술

① LAMMA (길이 적응형 멀티모달 퓨전)

  • 비유: 유연한 접시
  • 기존 퓨전 기술은 접시 크기가 고정되어 있어, 재료 (센서 데이터) 가 하나라도 빠지면 접시가 비어버립니다.
  • LAMMA 는 신축성 있는 접시입니다. 라이다와 카메라 두 가지 재료가 다 들어오면 두 개를 담고, 라이다가 고장 나면 카메라만 담습니다. 중요한 것은 접시 자체의 모양 (데이터의 의미 공간) 이 변하지 않는다는 점입니다. 그래서 요리사 (하위 시스템) 는 접시에 무엇이 들어갔든 상관없이 같은 방식으로 요리를 할 수 있습니다.

② PAFR (사전 학습 - 정렬 - 퓨전 - 랜덤 드롭)

  • 비유: 팀워크 훈련법
  • 기존 방식은 라이다와 카메라를 동시에 훈련시키면, 라이다가 너무 잘해서 카메라가 뒤처지는 현상 (모달리티 경쟁) 이 발생합니다. 마치 운동선수가 한 명만 너무 잘하면 다른 선수는 훈련을 안 하게 되는 것과 같습니다.
  • SiMO 는 단계별 훈련을 합니다.
    1. 먼저 라이다만 따로, 카메라만 따로 완벽하게 훈련시킵니다.
    2. 그다음 서로의 정보를 이해할 수 있도록 '통역사 (정렬 모듈)'를 훈련시킵니다.
    3. 마지막으로 두 정보를 합쳐서 훈련하되, 가끔은 한쪽 정보를 아예 빼고 (랜덤 드롭) 훈련합니다.
  • 이 과정을 통해 각 센서가 혼자서도 잘할 수 있는 능력을 키우면서, 협력할 때는 더 강력해집니다.

4. 실험 결과: 어떤 상황에서도 살아남는다

  • 라이다 고장 시: 기존 시스템은 0 점에 수렴하며 완전히 망가집니다. 하지만 SiMO 는 카메라만으로도 라이다가 있을 때의 성능을 90% 이상 유지하며 안전하게 주행합니다.
  • 혼합 고장 시: 차 A 는 라이다만, 차 B 는 카메라만 있는 상황에서도 SiMO 는 서로의 정보를 완벽하게 이해하여 협력합니다.

5. 결론

SiMO 는 **"센서가 고장 나면 시스템이 죽는 것"**이라는 기존 사고방식을 바꿉니다. 대신 **"어떤 센서가 살아있든 그 센서의 능력을 100% 활용하여 협력한다"**는 새로운 패러다임을 제시합니다.

이는 마치 불가사리처럼, 다리가 하나 잘려도 나머지 다리로 여전히 움직일 수 있고, 잘린 다리가 다시 자라날 수 있는 강력한 회복 탄력성을 자율주행 시스템에 부여한 것입니다.

한 줄 요약:

SiMO 는 자율주행차들이 서로의 센서 고장을 걱정하지 않고, 각자 가진 눈 (카메라) 과 귀 (라이다) 를 유연하게 활용하여 언제 어디서나 안전하게 협력할 수 있게 해주는 '불가사리 같은' 지능 시스템입니다.