Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

이 논문은 몬테카를로 트리 탐색과 학습된 생성 모델을 결합한 '생성적 최선 대응 (GenBR)' 알고리즘을 제안하여 대규모 불완전 정보 게임에서 PSRO 프레임워크와 내시 협상 이론을 활용해 인간과 협상할 때 사회적 후생과 내시 협상 점수 측면에서 인간 수준의 성과를 내는 확장 가능한 적대 모델링 훈련 체계를 구축했습니다.

Zun Li, Marc Lanctot, Kevin R. McKee, Luke Marris, Ian Gemp, Daniel Hennes, Paul Muller, Kate Larson, Yoram Bachrach, Michael P. Wellman

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: AI 는 왜 상대방을 모를까?

예전부터 AI 는 바둑이나 포커 같은 게임에서 인간을 이기는 데 성공했습니다. 하지만 그 비결은 대부분 **"상대방이 어떤 사람인지 전혀 모른 채, 오직 내 전략만 최적화하는 것"**이었습니다.

  • 비유: 가상의 '포커 토너먼트'에 나갔는데, 상대가 초보자인지, 프로인지, 아니면 오늘 컨디션이 좋은지 전혀 모른 채 무작정 똑같은 전략으로만 덤비는 상황입니다.
  • 한계: 만약 상대가 "나는 항상 bluff(속임수) 를 잘 치는 사람"이라면, AI 는 그걸 알아채고 대응해야 이길 수 있습니다. 하지만 기존 AI 는 상대방의 성향을 파악하는 '두뇌'가 부족해서, 새로운 상대를 만나면 당황하기 일쑤였습니다.

2. 해결책: "상상력"과 "탐색"을 결합한 새로운 AI

이 논문은 두 가지 핵심 기술을 섞어서 AI 에게 **'상상력'**과 **'탐색 능력'**을 부여했습니다.

① GenBR (생성적 최선 대응): "상상하는 탐정"

기존 AI 는 상대방의 숨겨진 카드 (정보) 를 정확히 계산해야만 최선의 수를 찾았습니다. 하지만 정보가 너무 많으면 계산이 불가능해집니다.
이 연구는 딥러닝을 이용해 상대방의 숨겨진 정보를 '상상'하게 만들었습니다.

  • 비유: 추리소설을 쓰는 작가처럼 생각해보세요.
    • 기존 방식: 모든 가능한 범인 (상대방의 카드) 을 하나하나 직접 조사해서 범인을 찾아야 합니다. (시간이 너무 오래 걸림)
    • 이 연구의 방식 (GenBR): "아, 이 상황이라면 범인은 A 일 가능성이 높겠지?"라고 **머릿속으로 시뮬레이션 (상상)**을 해봅니다. 이 '상상'을 통해 수많은 경우의 수를 빠르게 훑어보고, 가장 유력한 시나리오에 맞춰 움직입니다.
    • 결과: 상대방이 어떤 카드를 들고 있든, AI 는 그 상황을 머릿속으로 빠르게 재구성하고 "아, 이럴 때는 이렇게 해야겠다"라고 판단합니다.

② PSRO (전략의 진화): "수만 명의 연습 상대"

AI 가 혼자만 연습하면 실력이 늘지 않습니다. 다양한 스타일의 상대를 만나야 합니다.
이 연구는 AI 가 수천 번의 게임을 반복하며 다양한 '상대방 유형'을 만들어내고, 그들에게 맞춰 전략을 발전시키는 시스템을 사용했습니다.

  • 비유: 축구팀이 훈련할 때, 단순히 같은 팀원끼리만 연습하는 게 아니라, '공격형', '수비형', '공격수' 등 다양한 스타일의 가상의 상대팀을 만들어내며 훈련하는 것과 같습니다.
  • 특이점: 여기서 중요한 건, 단순히 이기는 것뿐만 아니라 **"상대방과 함께 모두 이기는 (협상) 방법"**을 찾도록 훈련시켰다는 점입니다.

3. 실험 결과: 인간과 함께 협상하는 AI

연구진은 이 AI 를 **"딜 or 노 딜 (Deal or No Deal)"**이라는 협상 게임에 투입했습니다. 두 사람이 물건을 나누어 가지면서 서로의 이익을 최대화해야 하는 게임입니다.

  • 인간 vs 인간: 인간들끼리 협상하면 보통 서로를 속이거나 이기려고 해서, 전체적인 이익이 줄어들거나 불공평해지곤 합니다.
  • 인간 vs 이 AI:
    • AI 는 인간의 협상 스타일을 실시간으로 파악했습니다. ("아, 이 사람은 공평한 걸 좋아하네", "저 사람은 이득을 많이 보려고 하네")
    • 그 결과, 인간과 AI 가 협상했을 때의 만족도 (사회적 후생) 가 인간끼리 협상했을 때와 비슷하거나 오히려 더 좋았습니다.
    • 특히 '공정함 (Fair)'을 추구하도록 훈련된 AI 는 인간이 가장 만족해하는 결과를 만들어냈습니다.

4. 핵심 요약: 왜 이것이 중요한가?

이 연구는 AI 가 **"상대방을 이해하는 능력"**을 갖췄다는 것을 보여줍니다.

  • 과거: "내가 이기려면 어떻게 해야 할까?" (이기적인 계산)
  • 현재 (이 연구): "상대방이 무엇을 원하고, 어떻게 생각할까? 그리고 그걸 고려해서 우리가 모두 이득을 보는 방법은?" (상호 이해와 협상)

5. 일상 속 적용 가능성

이 기술은 게임뿐만 아니라 우리 삶 곳곳에 적용될 수 있습니다.

  • 자동 입찰: 경매장에서 다른 입찰자들의 성향을 파악해 가장 합리적인 가격을 제시할 수 있습니다.
  • 자율 주행: 다른 차들이 어떻게 운전할지 예측하고, 사고 없이 모두 안전하게 이동하는 길을 찾을 수 있습니다.
  • 협상 봇: 회사 간 계약이나 무역 협상에서 상대방의 숨은 의도를 파악하고, 양측이 만족하는 타협점을 찾아낼 수 있습니다.

결론

이 논문은 **"AI 가 단순히 계산기처럼 작동하는 것을 넘어, 상대방의 마음을 읽는 '상상력'을 갖게 되었다"**는 것을 증명했습니다. 마치 훌륭한 협상가가 상대방의 표정과 말투를 읽으며 최선의 결과를 끌어내는 것처럼, 이 AI 는 게임과 협상에서 인간과 가장 자연스럽게, 그리고 공정하게 소통할 수 있는 능력을 갖게 되었습니다.