AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization

이 논문은 마르코프 결정 과정의 정책 점유 측도를 임베딩하여 사전 정의된 행동 기술자가 필요 없는 자동 행동 발견을 가능하게 하는 이론적으로 정립된 품질 - 다양성 최적화 방법인 AutoQD 를 제안하고, 이를 통해 연속 제어 작업에서 다양한 정책을 성공적으로 발견함을 입증합니다.

Saeed Hedayatian, Stefanos Nikolaidis

게시일 2026-03-05
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

AutoQD: 로봇에게 '창의성'을 가르치는 새로운 방법

이 논문은 인공지능이 새로운 일을 배울 때, 단순히 "가장 잘하는 방법" 하나만 찾는 것이 아니라, "다양하고 훌륭한 방법" 여러 가지를 동시에 찾아내는 기술에 대해 설명합니다.

이 기술을 AutoQD라고 부릅니다. 이걸 이해하기 위해 몇 가지 쉬운 비유를 들어보겠습니다.


1. 문제: "오직 한 가지 정답"만 찾는 함정

전통적인 인공지능 학습은 마치 수능 시험을 보는 것과 비슷합니다.

  • 목표: 점수를 가장 많이 받는 '정답' 하나를 찾는 것.
  • 결과: 모든 학생이 똑같은 방식으로 문제를 풀게 됩니다. 만약 시험지가 바뀌거나 (예: 비가 와서 미끄러운 길), 그 '정답'이 통하지 않으면 모든 학생이 실패합니다.

로봇이 걷는 법을 배울 때도 마찬가지입니다. 기존 방법들은 "가장 빠르게 걷는 법" 하나만 찾아냈습니다. 하지만 만약 로봇이 다리를 다치거나, 바닥이 미끄러우면 그 '최고의 걷기'는 무용지물이 됩니다. 우리는 로봇이 다리를 절뚝거리며 걷는 법, 점프하며 걷는 법, 엎드려 기어가는 법 등 다양한 상황을 대비한 '대안책'들을 모두 알고 싶어 합니다.

2. 기존 방법의 한계: "사람이 직접 지시하는 나침반"

기존의 '품질 - 다양성 (QD)' 알고리즘은 이 문제를 해결하려 했지만, 사람이 직접 나침반을 만들어줘야 했습니다.

  • 비유: 로봇에게 "발이 땅에 닿는 횟수"나 "어느 방향으로 움직였는지"를 기준으로 다양성을 측정하라고 사람이 직접 지시하는 것입니다.
  • 문제점: 사람이 "발이 닿는 횟수"를 기준으로 다양성을 재면, 로봇은 그 기준에 맞는 행동만 찾습니다. 하지만 로봇이 실제로 할 수 있는 아주 기발하고 예상치 못한 새로운 행동 (예: 발을 뒤로 차며 미끄러지는 행동) 은 사람이 미리 생각하지 못했기 때문에 찾아낼 수 없습니다.

3. AutoQD의 해결책: "로봇의 발자국을 지도로 그리기"

AutoQD는 사람이 나침반을 만들지 않아도 됩니다. 대신 로봇이 환경에서 걸어 다니며 남긴 '발자국' (경로) 자체를 분석해서 나침반을 스스로 만들어냅니다.

핵심 아이디어 1: "발자국" (Occupancy Measure)

로봇이 어떤 행동을 할 때, 어떤 상태를 거쳐 어떤 행동을 했는지의 기록을 **'발자국'**이라고 생각해보세요.

  • 비유: 두 사람이 다른 길로 산을 올랐다고 칩시다.
    • A 는 숲을 지나고, B 는 바위 위를 갑니다.
    • 기존 방법은 "누가 더 빨리 갔나?"만 봅니다.
    • AutoQD는 **"두 사람의 발자국이 얼마나 다른가?"**를 수학적으로 계산합니다. 발자국이 완전히 다르면, 두 사람의 행동 방식도 완전히 다르다고 판단합니다.

핵심 아이디어 2: "창의적인 지도 만들기" (Embedding)

AutoQD는 이 복잡한 발자국 데이터를 **컴퓨터가 이해할 수 있는 간단한 지도 (벡터)**로 변환합니다.

  • 비유: 이 지도는 "왼쪽으로 갈수록 걷는 속도가 빠르고, 위로 갈수록 다리를 많이 들어 올린다"는 식의 자연스러운 규칙을 찾아냅니다.
  • 중요한 점은, 사람이 "왼쪽은 빨라야 한다"고 정한 것이 아니라, 로봇이 실제로 보여준 다양한 행동들을 분석해서 지도가 스스로 규칙을 찾아냈다는 것입니다. 그래서 사람이 상상하지 못했던 기발한 행동도 이 지도 위에 자연스럽게 위치하게 됩니다.

핵심 아이디어 3: "최고의 지도사" (CMA-MAE)

이렇게 만들어진 지도를 바탕으로, CMA-MAE라는 강력한 탐색 알고리즘이 작동합니다.

  • 비유: 이 알고리즘은 "이 지도의 모든 구석구석을 채우기 위해" 로봇들을 훈련시킵니다.
  • "여기엔 아직 로봇이 없네? 그럼 새로운 로봇을 만들어서 저기 (다양한 행동) 를 하게 해보자!"라고 끊임없이 시도합니다.
  • 그 결과, 가장 잘하는 로봇부터 가장 독특한 로봇까지, 지도의 모든 구석에 다양한 로봇들이 채워지게 됩니다.

4. 왜 이것이 중요할까요? (실생활 예시)

이 기술이 있으면 어떤 일이 일어날까요?

  • 상황: 로봇이 갑자기 바닥이 미끄러운 환경에 놓였습니다.
  • 기존 로봇: "가장 빠르게 걷는 법"만 배웠으므로, 미끄러져서 넘어집니다.
  • AutoQD 로봇: "다양한 걷기"를 이미 배웠습니다.
    • "아, 미끄러지네? 그럼 **'엎드려 기어가는 법'**을 써볼까?" (성공!)
    • "아니면 **'발끝으로 살짝 살짝 걷는 법'**을 쓸까?" (성공!)
    • "혹시 **'한 발로 점프하는 법'**도 있나?" (성공!)

즉, 예상치 못한 위기 상황에서도 로봇이 당황하지 않고, 이미 배운 다양한 '대안' 중 하나를 골라 문제를 해결할 수 있게 됩니다.

5. 결론: "창의성"의 자동화

AutoQD는 인간이 "무엇이 다양하다"고 정의할 필요 없이, 로봇이 스스로 경험을 쌓으며 가장 의미 있고 다양한 행동들을 찾아내게 합니다.

  • 기존: 사람이 "다양해라"라고 지시하고, 로봇이 그 지시만 따름.
  • AutoQD: 로봇이 "내가 할 수 있는 모든 일을 해보자"고 시도하고, 그 결과물 중 가장 가치 있는 것들을 스스로 정리하여 보관함.

이 기술은 로봇이 새로운 환경에 적응하는 능력을 키우는 것은 물론, 게임, 의료, 예술 등 인간의 상상력을 넘어서는 새로운 아이디어를 자동으로 발견하는 데에도 큰 역할을 할 것으로 기대됩니다.

한 줄 요약:

"AutoQD는 로봇에게 '정답' 하나만 외우게 하지 않고, '다양한 해결책'을 스스로 찾아내어 창의적인 문제 해결 능력을 키워주는 기술입니다."