Learning Visuomotor Policy for Multi-Robot Laser Tag Game

이 논문은 다중 로봇 레이저 태그 게임에서 모듈식 접근법의 한계를 극복하기 위해, 다중 에이전트 강화학습으로 훈련된 교사 정책을 비전 기반 학생 정책에 증류하는 엔드투엔드 시지모터 정책을 제안하여 정확도와 충돌 회피 성능을 크게 향상시키고 실제 로봇에 성공적으로 배포한 연구입니다.

Kai Li, Shiyu Zhao

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇들이 레이저 태그 게임을 할 때, 어떻게 하면 사람의 눈과 손처럼 자연스럽게 싸울 수 있는지에 대한 연구입니다.

기존의 로봇들은 게임을 할 때 마치 "수학 문제를 풀듯" 복잡한 단계를 거쳤습니다. 하지만 이 연구팀은 **"인간은 어떻게 게임을 할까?"**라는 질문에서 시작해, 로봇에게도 인간처럼 눈으로 보고 바로 행동하는 능력을 가르쳤습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "과도한 계산"에 지친 로봇들

기존의 로봇들은 레이저 태그를 할 때 다음과 같은 복잡한 과정을 거쳤습니다.

  • 카메라로 적을 보고 → "저게 어디 있나?" (위치 추정)
  • "저기서 3 미터, 시속 5km 로 움직이는구나" (상태 계산)
  • "장애물은 어디 있지?" (지도 만들기)
  • "이제 총을 쏘자!" (행동 결정)

이 과정은 마치 눈을 가리고 누군가의 위치를 계산기로만 찾아서 총을 쏘는 것과 같습니다. 계산이 조금만 틀려도 (예: 바람이 불거나, 카메라가 흔들리면) 로봇은 엉뚱한 곳을 쏘거나 벽에 부딪힙니다. 또한, 로봇들끼리 "나 지금 여기야!"라고 서로 말해야 (통신) 하는 번거로움도 있었습니다.

2. 해결책: "직관적인 눈과 손"을 가진 로봇

연구팀은 **"사람은 복잡한 계산을 안 해도 게임을 잘한다"**는 점에 주목했습니다. 우리는 적의 정확한 좌표나 속도를 계산하지 않아도, 눈으로 적을 보고 "저기 있네!"라고 느끼면 바로 총을 쏘거나 피합니다.

이 연구는 로봇에게도 그런 **직관 (Visuomotor Policy)**을 심어주었습니다.

  • 입력: 카메라로 찍힌 영상 (그냥 그림)
  • 출력: 바퀴를 굴리는 속도, 방향, 총을 쏘는 신호
  • 핵심: "어디에 있나?"를 계산하는 과정 없이, 그림을 보고 바로 행동합니다.

3. 학습 방법: "명장 (Teacher) 과 견습생 (Student)"

이 기술을 가르치는 방법은 아주 똑똑합니다.

  • 1 단계: 명장 (Teacher) 만들기
    먼저 로봇에게 "정확한 위치 정보 (지도, 적의 좌표 등)"를 다 알려주면서 **최고의 전술가 (Teacher)**를 훈련시켰습니다. 이 로봇은 모든 정보를 다 알기 때문에 아주 잘 싸웁니다.
  • 2 단계: 견습생 (Student) 훈련
    이제 이 명장의 행동을 **카메라 영상만 보고 따라 하는 견습생 (Student)**을 만듭니다. 명장이 "적의 위치가 여기니까 이렇게 움직여!"라고 행동할 때, 견습생은 "아, 명장이 저렇게 움직였구나. 그럼 나는 저렇게 움직여야겠다"라고 카메라 화면을 보며 흉내 냅니다.

이 과정을 통해 견습생은 정확한 지도나 계산기 없이, 오직 눈 (카메라) 만으로도 명장처럼 잘 싸우게 됩니다.

4. 기술적 꿀팁: "초점 맞추기"와 "깊이감"

이 로봇이 더 잘 싸울 수 있게 해준 두 가지 비법이 있습니다.

  • 열지도 (Heatmap) 활용:
    카메라 화면에서 적을 발견하면, 그 부분을 붉은색으로 번지게 (가aussian 커널) 표시합니다. 마치 사격 연습할 때 표적을 붉게 칠해두는 것처럼, 로봇의 시선이 "여기가 중요해!"라고 자연스럽게 집중하게 만듭니다.
  • 깊이감 (Depth) 정보:
    단순히 평면적인 그림만 보는 게 아니라, **거리감 (얼마나 가까운지)**을 보여주는 깊이 정보를 함께 입력받습니다. 이는 로봇이 벽에 부딪히지 않고, 적과 적절한 거리를 유지하며 싸우게 도와줍니다.

5. 결과: 얼마나 잘했을까?

이 로봇들은 실제 게임장에서 테스트했고, 기존 방식보다 훨씬 뛰어났습니다.

  • 맞는 확률: 기존 방식보다 약 17% 더 많이 적을 맞췄습니다. (명장의 직관이 계산기보다 정확했음)
  • 부딪힘: 벽이나 다른 로봇과 부딪히는 경우가 6% 줄었습니다.
  • 실제 적용: 무거운 컴퓨터 없이, 작은 로봇 (드론이나 소형 로봇) 에도 탑재되어 실제로 잘 작동했습니다.

요약

이 논문은 **"복잡한 계산과 통신 없이, 오직 눈 (카메라) 만으로도 로봇이 인간처럼 자연스럽게 레이저 태그 게임을 할 수 있다"**는 것을 증명했습니다. 마치 초보 운전자가 차를 몰 때 계기판의 모든 수치를 계산하기보다, 앞을 보고 핸들을 돌리는 것처럼, 로봇도 눈으로 보고 바로 반응하는 능력을 키운 것입니다.

이 기술은 앞으로 적대적인 드론을 막거나, 복잡한 환경에서 로봇이 스스로 판단해야 하는 상황에 매우 유용하게 쓰일 것입니다.