Multi-View In-Cabin Monitoring System for Public Transport Vehicles

원저자: Evgeny Gorelik, Kenny Dean Karrow, Fikret Sivrikaya, Sahin Albayrak, Christian Baumann

게시일 2026-06-11✓ Author reviewed ⓘ

📖 3 분 읽기☕ 가벼운 읽기

원저자: Evgeny Gorelik, Kenny Dean Karrow, Fikret Sivrikaya, Sahin Albayrak, Christian Baumann

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

붐비는 시내버스 한 대를 북적이는 움직이는 거실이라고 상상해 보세요. 보통, 사람들이 어디에 앉아 있고, 서 있고, 움직이는지를 정확히 알고 싶다면, 모든 각도에서 지켜보는 클립보드를 든 사람들을 팀 단위로 투입해야 할 것입니다. 하지만 자율주행 버스의 세계에서는 컴퓨터가 이 일을 자동으로 수행해야 합니다.

이 논문은 이러한 '컴퓨터 두뇌'를 위한 새로운 "훈련 학교"를 소개합니다. 연구진이 무엇을 만들었는지, 그리고 어떻게 수행했는지를 쉬운 비유를 통해 설명해 드리겠습니다.

1. 문제점: "사각지대" 버스

대부분의 자율주행 기술은 도로를 보기 위해 창밖을 내다보는 눈을 가진 자동차와 같습니다. 하지만 버스 '내부'에서 무슨 일이 일어나고 있는지는 어떨까요?

과제: 버스 내부에서는 사람들이 서로를 가리고(폐쇄/occlusion), 좌석은 빛을 반사하며, 카메라는 종종 방의 아주 작은 부분만을 보게 됩니다. 카메라가 하나뿐이라면, 그것은 단 하나의 좌석에서 찍은 단 한 프레임의 영상만 보고 전체 영화를 이해하려는 것과 같습니다. 당신은 나머지 절반의 상황을 놓치게 됩니다.
공백: 컴퓨터가 명확하게 볼 수 있도록 가르칠 수 있는 충분한 사례(데이터셋)를 갖춘 좋은 "교과서"가 부족했습니다. 즉, 다양한 각도에서 버스 내부의 사람들을 보여주는 데이터가 없었습니다.

2. 해결책: "슈퍼 비전"을 갖춘 "스마트 버스"

연구팀은 독일에서 디지털화된 특수 시내 버스를 구축하고 여기에 "슈퍼 비전" 시스템을 장착했습니다.

눈: 그들은 안쪽을 향하는 4대의 카메라(방 구석에 서 있는 보안 요원처럼)와 방의 3D 지도를 만드는 박쥐의 초음파 탐지(echolocation) 역할을 하는 **회전식 레이저 스캐너(LiDAR)**를 설치했습니다.
데이터: 그들은 이 센서들이 함께 작동하는 9,000개 이상의 동기화된 순간을 기록했습니다. 이는 마치 네 개의 각도에서 동시에 방을 볼 수 있는 4D 영화와 3D 깊이 지도(depth map)를 모두 가진 것과 같습니다.

3. 마법 같은 기술: 선생님 없이 컴퓨터를 가르치는 법

보통 컴퓨터에게 사람을 인식하도록 가르치려면, 인간이 수천 장의 사진 속 인물 주변에 직접 상자를 그려야 합니다. 그 작업은 시간이 너무 오래 걸립니다.

파이프라인: 모든 상자를 일일이 손으로 그리는 대신, 연구진은 "로봇 조수" 파이프라인을 만들었습니다:
1. 탐정: AI를 사용하여 비디오에서 사람을 찾아냅니다.
2. 3D 조각가: 2D 카메라 이미지만을 바탕으로 사람의 3D 체형을 추측하는 또 다른 AI를 사용합니다.
3. 심판: 네 대의 카메라가 동일한 사람을 각각 조금씩 다르게 볼 수 있기 때문에, 연구진은 심판 역할을 하는 시스템을 구축했습니다. 이 시스템은 네 가지 서로 다른 예측치를 가져와 비교한 뒤, 가장 정확한 "평균" 3D 위치를 선택합니다.
4. 결과: 결과적으로, 인간의 도움을 거의 받지 않고도 모든 사람에 대해 정밀한 3D "골격"과 3D 상자(bounding box)가 자동으로 생성된 데이터셋을 얻게 되었습니다.

4. 테스트: 컴퓨터가 학습할 수 있는가?

연구진은 단순히 데이터만 만든 것이 아니라, 기존의 컴퓨터 두뇌들이 이 데이터를 통해 학습할 수 있는지 테스트했습니다.

시험: 그들은 유명한 AI 모델들(예: "Lift-Splat-Shoot" 및 "BEVFusion")을 가져와 이 새로운 데이터를 사용하여 버스 안의 사람들을 찾아내도록 학습시켰습니다.
성적: 모델들은 특히 약간의 오차 범위를 허용했을 때 준수한 성적을 보였습니다. 그러나 이 테스트는 단 하나의 카메라 뷰만 보는 것이 얼마나 위험한지(각도에 따라 약 19%에서 60%의 사람을 놓침)를 보여주었으며, 이는 전체 그림을 얻기 위해 왜 반드시 여러 대의 카메라가 필요한지를 증명했습니다.

5. 무엇이 들어있는가?

연구진은 이 패키지 전체를 다른 과학자들에게 무료로 제공합니다. 여기에는 다음이 포함됩니다:

비디오 및 레이저 데이터.
3D 라벨을 생성하기 위한 "로봇 조수" 도구.
표준 자율주행 소프트웨어(nuScenes 형식)에 적합한 포맷.

요약

이 논문은 자율주행 버스를 위한 첨단 훈련 체육관을 건설하는 과정과 같습니다. 이전까지 버스들은 흐릿한 한 쪽 눈으로 객실 내부를 보려고 애쓰고 있었습니다. 이제 버스에는 네 대의 고화해상도 카메라, 3D 레이저 스캐너, 그리고 (사람들이 좌석 뒤에 숨거나 빽빽하게 모여 있을 때도 승객을 추적할 수 있도록 돕는) "완벽하게 채점된" 연습 시험(데이터셋)이 갖춰진 체육관이 생겼습니다.

연구진이 명시적으로 하지 않은 것:
이 논문은 엄격하게 사람들이 어디에 있는지, 그리고 무엇을 하고 있는지(앉아 있는지, 서 있는지, 걷고 있는지)를 감지하는 데 집중합니다. 연구진은 이 시스템을 실제 도로를 달리는 버스에서 테스트하지 않았으며, 이 시스템이 의료 응급 상황을 해결하거나 인간 운전자를 대체할 수 있다고 주장하지도 않았습니다. 이것은 미래 연구를 위한 기초적인 도구입니다.

1. 문제점: "사각지대" 버스

2. 해결책: "슈퍼 비전"을 갖춘 "스마트 버스"

3. 마법 같은 기술: 선생님 없이 컴퓨터를 가르치는 법

4. 테스트: 컴퓨터가 학습할 수 있는가?

5. 무엇이 들어있는가?

요약

기술 요약: 대중교통 차량을 위한 다중 뷰 인캐빈(In-Cabin) 모니터링 시스템

유사한 논문