Each language version is independently generated for its own context, not a direct translation.
나침반 내비게이션 (CompassNav): 길을 '따르는' 것에서 '이해하는' 것으로의 혁신
이 논문은 로봇이나 AI 가 길을 찾을 때, 단순히 사람이 걸어간 길을 따라만 다니는 것에서 벗어나, 스스로 길을 이해하고 판단하는 능력을 키우는 새로운 방법을 제시합니다.
마치 운전면허 시험을 생각해보면 쉽습니다.
- 기존 방식 (Path Imitation): "이 길로 가라, 그다음 좌회전 하라"라는 지시를 그대로 외워서 따라가는 것. 만약 길에 장애물이 생기거나 지도가 조금만 달라져도 당황해서 멈춰 섭니다.
- 새로운 방식 (CompassNav): "목적지는 어디고, 지금 내가 어디에 있는지, 어떤 길이 가장 가까운지"를 스스로 판단하는 내면의 나침반을 만드는 것.
1. 문제점: "무조건 따라가기"의 한계
지금까지 AI 로봇을 길 찾기 훈련시킬 때는, 전문가가 걸어간 단 하나의 정답 경로를 보여주고 "이걸 똑같이 따라 해"라고 시켰습니다.
- 비유: 마치 미로 찾기에서 정답이 적힌 선을 따라만 그리는 것과 같습니다.
- 문제: 실제 세상은 복잡합니다. 길이 막히거나, 새로운 길이 생기면, 정해진 선만 따라가던 로봇은 길을 잃고 멈춰 섭니다. 로봇이 "왜 이 길로 가야 하는지"를 이해하지 못하기 때문입니다.
2. 해결책: CompassNav (나침반 내비게이션)
저자들은 AI 에게 **단순한 경로 복제가 아닌, '의사결정 이해 (Decision Understanding)'**를 가르쳤습니다.
핵심 아이디어 1: "모든 길의 나침반" (Compass-Data-22k)
기존 데이터는 '정답 길' 하나만 표시했습니다. 하지만 이 연구에서는 모든 가능한 길에 대해 "이 길로 가면 목적지까지 얼마나 걸릴까?"를 계산해서 표시했습니다.
- 비유: 지도 앱이 "정답 길"만 빨간색으로 표시하는 게 아니라, **모든 갈림길마다 "이 길은 5 분, 저 길은 10 분, 저길은 20 분"**이라고 거리와 점수를 다 알려주는 것입니다.
- 효과: AI 는 이제 "어떤 길이 가장 좋은지"를 비교하고 판단하는 법을 배웁니다.
핵심 아이디어 2: "상황에 맞는 칭찬과 조언" (Gap-Aware Reward)
AI 가 길을 선택할 때, 단순히 "맞았으면 점수 100, 틀리면 0"만 주는 게 아니라, 상황에 따라 다르게 평가합니다.
- 비유:
- 명확한 상황 (목적지가 바로 앞): "정답! 아주 확실해!"라고 확신에 찬 큰 점수를 줍니다.
- 모호한 상황 (어떤 길도 비슷해 보임): "두 길 모두 나쁘지 않아. 하나를 골라봐!"라고 유연한 점수를 줍니다.
- 효과: AI 는 명확할 때는 확실히 행동하고, 헷갈릴 때는 exploration(탐험) 을 하도록 자연스럽게 학습합니다.
3. 훈련 과정: 두 단계로 완성하는 마법
이 AI 는 한 번에 배우는 게 아니라, 두 단계를 거칩니다.
- 1 단계 (SFT): "스승의 생각 따라하기"
- 먼저, 똑똑한 AI 스승이 "이제 내가 어디에 있고, 무엇을 보고, 왜 이 길로 가야 하는지"를 **생각하는 과정 (Reasoning)**을 말로 설명하며 길을 가는 데이터를 보여줍니다.
- 로봇은 이 과정을 따라하며 "길을 찾을 때 생각해야 한다"는 기본 습관을 배웁니다.
- 2 단계 (RFT): "실전 연습과 피드백"
- 이제 로봇이 직접 길을 찾게 하고, 위에서 만든 **'나침반 데이터'**와 **'상황별 점수 시스템'**을 통해 훈련시킵니다.
- 로봇은 단순히 길을 따라가는 게 아니라, "내가 선택한 길이 다른 길보다 얼마나 좋은지"를 스스로 계산하며 실력을 키워갑니다.
4. 결과: 작은 뇌로도 큰 성취
이 방법을 통해 **70 억 개의 파라미터 (뇌세포)**를 가진 비교적 작은 AI 모델이, 훨씬 더 크고 비싼 상용 AI 모델들보다도 뛰어난 길 찾기 실력을 보여주었습니다.
- 시뮬레이션: 가상 환경에서 최고의 기록을 세웠습니다.
- 실제 로봇: 실제 물리 로봇에 적용했을 때도, 장애물을 피하고 목적지 (예: 쓰레기통) 를 찾아내는 데 성공했습니다.
- 특이점: 기존 모델들이 "길 찾기"를 잘 못하던 부분 (예: "2 층으로 올라가서 오른쪽 두 번째 문" 같은 복잡한 3 차원 공간 이해) 에서도 큰 개선을 보였습니다.
요약
이 논문은 **"AI 에게 정답을 외우게 하지 말고, 나침반을 쥐여주어 스스로 길을 찾게 하라"**는 철학을 담고 있습니다.
앞으로 우리가 만나는 로봇들은 단순히 명령을 수행하는 기계가 아니라, 주변 상황을 보고 스스로 판단하여 길을 찾아주는 똑똑한 동반자가 될 것입니다.