Multi-Context Fusion Transformer for Pedestrian Crossing Intention Prediction in Urban Environments

Each language version is independently generated for its own context, not a direct translation.

이 논문은 자율주행차가 보행자가 길을 건너려는지, 아니면 그냥 지나가려는지를 미리 예측하는 기술을 소개합니다.

기존의 방법들은 마치 "사람의 얼굴만 보고 표정을 읽으려" 하거나, "모든 카메라 화질을 다 분석하려" 해서 너무 무겁고 복잡한 경우가 많았습니다. 하지만 이 연구팀이 제안한 MFT(다중 맥락 융합 트랜스포머) 는 조금 더 똑똑하고 간결한 방식을 사용합니다.

이 기술을 이해하기 쉽게 스마트한 교통 경찰관과 4 가지의 비서에 비유해서 설명해 드릴게요.

자율주행차가 보행자를 마주쳤을 때, "이 사람이 지금 차를 보고 건너려 하나?"라고 판단하는 건 매우 어렵습니다.

기존 방식의 한계: 과거 방법들은 카메라로 찍힌 모든 영상 데이터 (사람의 옷, 배경, 움직임 등) 를 다 분석하려다 보니 컴퓨터가 너무 바빠지고, 오히려 중요한 신호를 놓치거나 헷갈리는 경우가 많았습니다. 마치 "모든 소리를 다 들으려다 중요한 말만 놓치는" 상황과 비슷합니다.

이 연구팀은 복잡한 영상 대신, 4 가지 핵심 정보 (맥락) 만을 정리해서 전달하는 방식을 썼습니다. 마치 4 명의 전문 비서가 교통 경찰관 (AI) 에게 중요한 정보만 요약해서 보고하는 것과 같습니다.

행동 비서 (Pedestrian Behavior): "저 사람은 서 있나? 걷고 있나? 차를 보고 있나? 손을 흔들고 있나?" (사람의 몸짓과 눈빛)
위치 비서 (Localization): "그 사람이 도로 어디에 있나? 횡단보도 바로 앞인가?" (사람의 위치)
차량 비서 (Vehicle Motion): "우리 차는 지금 멈췄나? 천천히 가고 있나?" (자율주행차의 상태)
환경 비서 (Environment): "주변에 횡단보도나 신호등이 있나? 차선이 몇 줄인가?" (도로 상황)

이 4 명의 비서가 각자 가진 정보를 정리해서 AI 에게 전달합니다.

이 4 명의 비서가 정보를 전달할 때, 단순히 "A, B, C, D"라고 나열하는 게 아니라, 두 단계의 회의를 거쳐서 결론을 내립니다.

1 단계 회의 (내부 회의): 각 비서끼리 먼저 대화합니다.
- 예: '행동 비서'가 "사람이 차를 보고 있어요"라고 말하면, '위치 비서'는 "아, 횡단보도 바로 앞이네요"라고 맞장구칩니다. 이렇게 각 정보끼리 서로의 의미를 보완합니다.
2 단계 회의 (글로벌 회의): 모든 비서가 모여서 '최고 지휘관 (CLS 토큰)'에게 최종 보고를 합니다.
- 이때 지휘관은 "누구의 말이 가장 중요한가?"를 판단합니다. 예를 들어, 횡단보도 앞 (환경) 에서 사람이 차를 보고 (행동) 있으면, 지휘관은 "이건 무조건 건너는 거야!"라고 확신하게 됩니다.

이 과정이 트랜스포머 (Transformer) 라는 AI 기술을 통해 매우 빠르고 정확하게 이루어집니다.

정확도: 실험 결과, 이 방식은 기존 최고의 기술들보다 더 정확하게 보행자의 의도를 예측했습니다. (JAAD 데이터셋에서 93% 의 정확도 달성!)
가벼움: 복잡한 영상 데이터를 다 분석하는 대신, 핵심 정보만 쓰므로 컴퓨터가 훨씬 가볍고 빠릅니다. 마치 "두꺼운 백과사전 전체를 읽는 대신, 요약된 메모 한 장만 보고 결정하는" 것과 같습니다.
예측 시간: 1~~2 초 앞뿐만 아니라, 2~~3 초 앞의 상황에서도 다른 방법들보다 더 잘 예측했습니다. (미래를 더 멀리 내다볼 수 있다는 뜻입니다.)

이 논문은 **"복잡한 영상 분석 대신, 4 가지 핵심 정보 (행동, 위치, 차량, 환경) 를 모아서 서로 대화하게 하고, AI 가 이를 종합해 보행자의 의도를 정확하고 빠르게 예측하는 새로운 방법"**을 제시했습니다.

이 기술이 상용화되면, 자율주행차가 보행자를 더 안전하게 보호하고, 불필요하게 멈추는 일 없이 더 매끄럽게 주행할 수 있게 될 것입니다.

유사한 논문