Learning Acrobatic Flight from Preferences

이 논문은 복잡한 역학과 주관적인 목표가 요구되는 곡예 비행과 같은 작업에서 수동으로 설계된 보상 함수의 한계를 극복하고, 불확실성을 명시적으로 모델링하는 '신뢰도 기반 보상 앙상블 (REC)' 프레임워크를 제안하여 시뮬레이션에서 학습된 정책을 실제 세계로 제로샷 전이하는 데 성공했음을 보여줍니다.

Colin Merk, Ismail Geles, Jiaxu Xing, Angel Romero, Giorgia Ramponi, Davide Scaramuzza

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚁 핵심 비유: "드론 코치 vs. 드론 학생"

상상해 보세요. 드론을 가르치는 코치가 있고, 배우는 드론이 있습니다.

1. 기존 방식의 문제점: "너무 복잡한 점수표"

기존에는 코치가 드론에게 **"이 점수표에 따라 점수를 매겨줄게"**라고 했습니다.

  • "회전할 때 10 점, 흔들리면 -5 점, 속도가 빠르면 +2 점..."
  • 하지만 문제는 **곡예 비행 (Acrobatic Flight)**은 점수표로 표현하기 어렵다는 것입니다. "어떤 비행이 더 아름답고 매끄러운가?"는 주관적인 문제입니다.
  • 연구자들은 직접 만든 점수표 (수동 설계 보상 함수) 가 인간의 눈과 얼마나 일치하는지 확인해 보니, 단 60.7% 만 일치했습니다. 즉, 코치가 "완벽해!"라고 점수 준 것을 인간은 "어색해 보이는데?"라고 생각할 때가 절반이 넘었습니다.

2. 새로운 방식 (이 논문): "비교하는 눈"

이 논문은 점수표를 버리고, 인간이 두 개의 비행 영상을 보고 "어느 것이 더 좋나요?"라고 선택하게 하는 방식을 제안합니다.

  • "A 비행과 B 비행 중, 어느 것이 더 매끄럽나요?"
  • 드론은 이 '선택'을 통해 스스로 점수표를 만들어가며 배웁니다.

🌟 이 논문의 핵심 기술: "REC (불확실성을 아는 코치)"

그런데 여기서 새로운 문제가 생깁니다. 두 비행이 거의 비슷할 때, 인간이 "A 가 더 좋아"라고 선택하는 것은 우연일 수도 있습니다. (예: "음... A 가 조금 더 좋아 보이는데, B 도 나쁘지 않은데?" 같은 상황)

기존 AI 는 이 '우연'을 무시하고 무조건 A 가 더 좋다고 믿어버려서, 엉뚱한 방향으로 학습할 수 있습니다.

이 논문이 제안한 **REC (Reward Ensemble under Confidence)**는 다음과 같은 특징을 가집니다:

  1. 여러 명의 코치 (Ensemble): 점수를 매기는 코치를 한 명만 두지 않고, **여러 명 (앙상블)**을 둡니다.
  2. 의견 불일치 감지: 만약 여러 코치들이 "A 가 좋아", "B 가 좋아", "모르겠어"라고 의견이 갈릴 때, REC 는 **"아, 이 부분은 내가 아직 확신이 없구나 (불확실성이 높구나)"**라고 인식합니다.
  3. 호기심 자극: "내가 확신이 없는 곳"은 드론이 더 많이 가보게 합니다. (탐색을 장려)
    • 비유: "이곳은 아직 내가 잘 모르는 곳이야. 한번 더 가봐서 확실하게 해보자!"라고 드론을 부추기는 것입니다.

🏆 실험 결과: 얼마나 잘했나요?

연구팀은 시뮬레이션에서 드론을 훈련시킨 뒤, **실제 드론 (220g 무게)**에 그대로 적용해 보았습니다. (실제 드론을 다시 가르치지 않고 바로 날린 것, 즉 'Zero-shot' 전이)

  • 기존 방식 (Preference PPO): 인간이 원하는 곡예 비행의 55.2% 정도만 성공했습니다. (점수표와 인간의 눈이 안 맞아서 학습이 불안정함)
  • 새로운 방식 (REC): **88.4%**까지 성공률을 높였습니다.
  • 결과: REC 를 사용하면 드론이 **연속 파워루프 (Powerloop)**나 새로운 '8'자 비행 같은 어려운 곡예를 인간이 점수표 없이도, 오직 "어느 것이 더 좋아?"라는 선택만으로 완벽하게 익힐 수 있었습니다.

💡 한 줄 요약

"드론에게 복잡한 점수표를 주지 말고, 인간이 '어느 것이 더 예쁜가?'를 선택하게 하세요. 그리고 AI 가 '내가 아직 확신이 없는 부분'을 스스로 찾아내서 더 열심히 연습하게 하세요. 그러면 점수표 없이도 인간이 원하는 멋진 곡예 비행을 할 수 있습니다."

이 연구는 로봇이 인간의 '감'과 '취향'을 이해하고, 불완전한 피드백에서도 스스로 성장할 수 있는 새로운 길을 열었다는 점에서 매우 중요합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →