Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

이 논문은 다크 소울 3 의 실시간 전투 환경을 대상으로 방향성 스킬 그래프와 계층적 커리큘럼을 통해 5 가지 재사용 가능한 스킬을 학습하고, 환경 변화 시 일부 스킬만 선택적으로 적응시켜 효율적으로 성능을 회복하는 지속 학습 에이전트 프레임워크를 제안합니다.

Ali Najar

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎮 핵심 비유: "프로 스포츠 팀의 역할 분담"

기존의 많은 AI 는 **'혼자서 모든 일을 다 하는 1 인 기업'**처럼 훈련됩니다. 카메라를 돌리고, 적을 쫓고, 피하고, 공격하고, 치료까지 혼자서 다 결정해야 하죠. 문제는 상황이 바뀌면 (예: 적의 스킬이 변하면) 처음부터 다시 배워야 하거나, 실수가 너무 많아져서 망가진다는 점입니다.

이 논문은 이를 **'프로 스포츠 팀'**처럼 바꿨습니다.
팀원 5 명이 각자 특화된 역할 (포지션) 을 맡고, 서로 협력하게 만든 거죠.

1. 팀원 5 명 (5 가지 기술)

연구진은 게임 컨트롤을 5 가지 작은 기술로 쪼개서 각각의 '전문가'를 만들었습니다.

  • 카메라맨 (Camera): 적을 화면 중앙에 잘 잡는 역할.
  • 사격관 (Lock-on): 적을 정확히 조준하는 역할.
  • 주행수 (Movement): 적과 적절한 거리를 유지하며 움직이는 역할.
  • 회피왕 (Dodging): 적의 공격을 타이밍 맞춰 피하는 역할.
  • 전술가 (Heal-Attack): "지금 공격할까? 아니면 피를 채울까?"를 결정하는 역할.

이들은 각각의 역할에 집중하므로, 한 명이 실수해도 다른 팀원이 그 부분을 커버할 수 있습니다.

2. 계단식 훈련 (Hierarchical Curriculum)

이 팀은 한 번에 모두 훈련하지 않았습니다. **'계단식 훈련'**을 시켰습니다.

  1. 먼저 카메라맨사격관을 훈련시켜 적을 잘 잡게 합니다.
  2. 그다음 주행수를 훈련시켜, 카메라맨이 잡은 적을 따라다니게 합니다.
  3. 그다음 회피왕을 훈련시켜, 주행수가 잡은 적의 공격을 피하게 합니다.
  4. 마지막으로 전술가를 훈련시켜, 앞선 팀원들이 만들어준 좋은 상황에서 공격과 치료를 결정하게 합니다.

비유: 마치 요리사에게 먼저 "칼질"을 가르치고, 그다음 "불 조절"을 가르치고, 마지막으로 "맛보기"를 가르치는 것과 같습니다. 기초가 탄탄해야 고급 기술도 잘 배울 수 있죠.

3. 새로운 상황에서의 적응 (Selective Adaptation)

이게 이 논문이 가장 자랑하는 부분입니다. 게임의 보스 전이 **1 단계 (Phase 1)**에서 **2 단계 (Phase 2)**로 변하면 (보스의 체력이 늘고 공격 패턴이 바뀜), 기존 AI 는 당황해서 다시 처음부터 배워야 합니다.

하지만 이 팀은 다릅니다.

  • 카메라, 사격, 주행은 보스가 변해도 똑같이 작동하므로 그대로 유지합니다. (이건 변하지 않는 기본기니까요.)
  • 오직 회피전술만 새로운 상황에 맞춰 짧은 시간 동안만 다시 훈련시킵니다.

비유: 축구팀이 상대팀이 바뀌었을 때, "공격수"와 "수비수"의 포지션만 살짝 조정하고, "키퍼"나 "미드필더"의 기본기는 그대로 두는 것과 같습니다. 덕분에 새로운 적을 만나도 몇 번의 연습만으로도 바로 승리를 거둘 수 있습니다.


📊 실험 결과: 왜 이 방법이 좋은가요?

  1. 데이터 효율성: 한 명이 모든 걸 하는 AI(단일 정책) 는 25 만 번의 시도로도 제대로 배우지 못했지만, 이 팀 방식은 훨씬 적은 노력으로 높은 실력을 발휘했습니다.
  2. 빠른 적응: 보스 전이 2 단계로 바뀌었을 때, 전체를 다시 훈련하지 않고 회피와 전술만 고쳐서 승률을 52% 까지 끌어올렸습니다.
  3. 실패 분석: 만약 회피왕 (Dodge) 이 무작위로 움직이게 하면 승률이 0% 가 됩니다. 즉, 각 팀원의 역할이 얼마나 중요한지, 그리고 서로 어떻게 의존하는지를 증명했습니다.

💡 결론: "배운 것을 잊지 않고, 새로운 것을 빠르게 배우는 AI"

이 연구는 AI 가 **"한 번 배운 것은 잊지 않고 (안정성), 새로운 상황에서는 필요한 부분만 빠르게 고쳐서 적응 (유연성)"**할 수 있음을 보여줍니다.

마치 유능한 요리사가 새로운 재료가 들어오더라도, 기본적인 칼질과 불 조절 실력은 그대로 유지하면서 새로운 레시피만 익혀서 바로 요리를 해내는 것과 같습니다. 이 방법은 게임뿐만 아니라, 로봇이 다양한 환경에서 일하거나 자율주행차가 새로운 도로를 주행할 때도 매우 유용하게 쓰일 수 있는 미래 기술입니다.