SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

이 논문은 700 만 개의 대규모 데이터셋과 모방 학습 및 사회적 인식 흐름 탐색 강화 학습 (SAFE-GRPO) 을 기반으로 한 계층적 '뇌 - 행동' 아키텍처를 통해 사회적 규범을 준수하는 지능형 내비게이션을 가능하게 하는 'SocialNav'라는 새로운 기초 모델을 제안합니다.

Ziyi Chen, Yingnan Guo, Zedong Chu, Minghua Luo, Yanfen Shen, Mingchao Sun, Junjun Hu, Shichao Xie, Kuan Yang, Pei Shi, Zhining Gu, Lu Liu, Honglin Han, Xiaolong Wu, Mu Xu, Yu Zhang, Ning Guo

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 사회적 지능을 갖춘 로봇: '소셜네비 (SocialNav)' 이야기

이 논문은 로봇이 사람들과 함께 살아가는 세상에서, 단순히 목적지까지 가는 것뿐만 아니라 사람들이 지켜야 할 예절과 규칙을 지키며 이동하는 방법을 가르치는 새로운 기술을 소개합니다.

기존의 로봇들은 "가장 짧은 길"만 찾다가, 사람들이 걷지 않는 잔디밭을 밟거나, 횡단보도 없이 도로를 건너는 등 매우 비효율적이고 무례한 행동을 하곤 했습니다. 이 논문은 그 문제를 해결하기 위해 **'소셜네비 (SocialNav)'**라는 새로운 로봇 두뇌를 개발했다고 말합니다.

이 기술을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드릴게요.


1. 로봇의 두뇌 구조: "철저한 계획가"와 "실전 운전사"

소셜네비는 로봇을 움직이는 두 가지 핵심 역할을 분리했습니다. 마치 명상하는 철학자실전 운전사가 팀을 이루는 것과 같습니다.

  • 🧠 '브레인 (Brain)': 철학자 역할

    • 이 부분은 거대한 언어 모델 (VLM) 을 기반으로 합니다.
    • 역할: 로봇이 눈으로 보는 장면을 보고 "저기 잔디밭은 사람이 걷지 않는 곳이야", "저 횡단보도는 신호가 초록색이니까 건너도 돼", "사람들이 많으니 우회해서 가자"라고 생각하고 설명합니다.
    • 비유: 마치 운전할 때 "저기 차가 많으니 조심해야지", "신호등이 빨간색이니까 멈춰야지"라고 스스로 말하며 상황을 분석하는 운전석의 조수 같은 존재입니다.
  • 🚗 '액션 전문가 (Action Expert)': 운전사 역할

    • 이 부분은 철학자의 지시를 받아 실제로 바퀴를 굴리고 방향을 잡습니다.
    • 역할: 철학자가 "잔디밭은 피해서 가자"라고 말하면, 운전사는 그 지시를 받아 실제로 잔디밭을 피해 부드럽게 우회하는 경로를 만들어냅니다.
    • 비유: 조수의 지시를 듣고 핸들을 돌리는 실전 운전사입니다.

이 두 명이 완벽하게 협력하면, 로봇은 단순히 목적지만 향해 달리는 게 아니라 사람들이 자연스럽게 걷는 길을 찾아 이동하게 됩니다.


2. 학습 방법: "700 만 개의 사례"와 "현실적인 훈련"

로봇이 이렇게 똑똑해지려면 엄청난 양의 데이터가 필요합니다. 연구팀은 700 만 개의 데이터로 로봇을 훈련시켰는데, 이를 세 가지 단계로 나누어 설명할 수 있습니다.

  • 📚 1 단계: 다양한 경험 쌓기 (인터넷 영상 + 시뮬레이션)

    • 인터넷에 있는 수많은 도시 탐험 영상과 컴퓨터 속 가상 도시를 보며, "사람들은 보통 어디를 걷지?"라는 기본 상식을 배웁니다.
    • 비유: 운전 면허 시험을 보기에 앞서, 수많은 교통 상황을 담은 드라마와 다큐멘터리를 보며 교통 법규를 암기하는 과정입니다.
  • 🤖 2 단계: 실전 연습 (실제 로봇 데이터)

    • 가상 세계가 아닌, 실제 세상에서 움직인 로봇들의 데이터를 통해 현실의 물리 법칙을 배웁니다.
    • 비유: 이론 공부를 마치고 실제 도로에서 운전 강사의 지도를 받으며 운전하는 과정입니다.
  • 🏆 3 단계: 예절 교육 (강화 학습 - SAFE-GRPO)

    • 이것이 이 기술의 핵심입니다. 로봇이 "가장 빠른 길"을 선택하려 할 때, "사회적 예절"을 지키는 행동을 하면 점수를 주고, "잔디밭을 밟는" 행동을 하면 벌점을 줍니다.
    • 비유: 운전사에게 "가장 빠른 길로 가라"고만 하면 차를 타고 잔디밭을 뚫고 갈 수도 있습니다. 하지만 **"사람들이 걷는 길만 다니면 상금을 주고, 무단 횡단하면 벌금을 내라"**고 가르치는 엄격한 예절 교실을 거치는 것입니다.

3. 결과: "사람처럼 생각하는 로봇"

이 기술을 적용한 로봇은 기존 로봇들과 어떤 차이가 있을까요?

  • 기존 로봇: "목적지까지 10 초 단축!"이라며 잔디밭을 밟거나, 차도를 가로지르거나, 유리벽에 부딪히는 무모한 행동을 합니다. (가장 짧은 길만 쫓음)
  • 소셜네비 로봇: "저기 횡단보도가 있네. 신호를 기다렸다가 건너자. 잔디밭은 밟지 말고 보도블록을 따라가자."라고 생각하며 사람들이 자연스럽게 걷는 길을 선택합니다.

실제 성과:

  • 성공적인 도착률: 기존 최고 기술보다 38% 더 높아졌습니다.
  • 사회적 예절 준수율: 46% 더 높아졌습니다. (잔디밭을 밟지 않고, 사람들과 자연스럽게 어울려 이동함)

🌟 한 줄 요약

이 논문은 **"로봇이 단순히 '빠르게' 이동하는 것을 넘어, 사람들과 함께 살아가는 '예의 바른' 이동 방식을 배우게 하는 기술"**을 개발했다고 말합니다.

마치 운전 면허를 딸 때 '가장 빠른 길'만 가르치는 게 아니라, '교통 법규와 예절'까지 가르쳐서 안전하고 매너 있는 운전자가 만드는 과정과 같습니다. 이제 로봇도 우리 사회의 일원으로서, 사람들과 함께 더 안전하고 자연스럽게 이동할 수 있게 되었습니다! 🚶‍♂️🤖✨