The Yokai Learning Environment: Tracking Beliefs Over Space and Time

Each language version is independently generated for its own context, not a direct translation.

과거에는 **'하나비 (Hanabi)'**라는 카드 게임이 AI 협력 능력을 테스트하는 표준 시험지로 쓰였습니다.

비유: 마치 초등학교 1 학년 수준의 수학 문제를 AI 에게 계속 내는 것과 같습니다.
현실: 최근 AI 들은 이 문제를 거의 완벽하게 풀어서, "이제 이걸로 더 이상 발전 정도를 재기 어렵다"는 문제가 생겼습니다. AI 들이 서로 다른 버전으로 훈련되어도 (다른 '씨앗'으로 키웠어도) 서로 알아서 완벽하게 협력해버렸기 때문입니다.

연구자들은 AI 의 진정한 협력 능력을 측정할 수 있는 **새로운 게임 '요카이 (Yokai)'**를 만들었습니다. 이 게임은 기존 하나비와 완전히 다른 난이도를 자랑합니다.

요카이 게임의 핵심 규칙 (비유 포함):

눈가리개와 이동하는 카드:
- 하나비: 내 손에 든 카드는 내가 다 볼 수 있습니다.
- 요카이: 카드는 테이블 위에 숨겨져 있고, 카드들이 계속 움직입니다. 내가 한 번 본 카드는 나중에 다른 곳으로 이동할 수 있습니다.
- 비유: 친구와 함께 '숨은그림찾기'를 하는데, 친구는 내가 보는 그림을 볼 수 없고, 그림 속 캐릭터들은 계속 제자리에서 뛰어다닙니다. 내가 "저기 저게 빨간색이야!"라고 말해도, 그 캐릭터가 이미 다른 곳으로 이동했을지 모릅니다.
모호한 힌트:
- 하나비: 힌트는 100% 진실입니다. "이 카드가 빨간색이야"라고 하면 무조건 빨간색입니다.
- 요카이: 힌트가 거짓일 수도 있고, 여러 색을 동시에 가리킬 수도 있습니다.
- 비유: 친구가 "저건 빨간색이야"라고 말했는데, 사실은 "빨간색이면서 동시에 파란색일 수도 있는" 모호한 상황입니다. 친구가 농담을 한 건지, 착각한 건지, 아니면 내가 오해한 건지 추론해야 합니다.
위험한 조기 종료:
- 게임을 빨리 끝내면 점수가 훨씬 높지만, 아직 정보가 부족할 때 끝내면 0 점이 됩니다.
- 비유: "우리가 다 알았으니 지금 바로 끝내자!"라고 말해야 하는데, 아직 친구가 무엇을 알고 있는지 확신이 없으면 큰 실수가 됩니다.

연구자들은 하나비에서 최강자였던 최신 AI 기술들 (High-Entropy IPPO, Other-Play, Off-Belief Learning 등) 을 요카이 게임에 투입했습니다. 결과는 충격적이었습니다.

결과: 하나비에서는 만점을 받던 AI 들이 요카이에서는 서로 통하지 않았습니다.
현상:
- 자기 자신과 놀 때는 잘함 (SP): 같은 AI 가 자기 자신과 놀 때는 잘합니다.
- 다른 AI 와 놀 때는 망함 (XP): 훈련된 AI 가 다른 버전의 AI 와 짝을 이루면 완전히 엉망이 됩니다.
- 이유: AI 들이 서로의 '생각'을 읽는 능력 (심리 이론, Theory of Mind) 이 부족했기 때문입니다. 상대방이 무엇을 알고 있는지, 상대방이 어떤 힌트를 어떻게 해석할지 추론하지 못했습니다.

이 연구는 중요한 사실을 밝혀냈습니다.

"어떤 게임에서 AI 가 잘한다고 해서, 모든 협력 상황에서 잘하는 것은 아니다."

기존의 AI 기술들은 하나비라는 '편안한 환경'에 너무 맞춰져 있었습니다. 요카이처럼 정보가 불완전하고, 카드가 움직이며, 힌트가 모호한 실제와 더 가까운 복잡한 상황에서는 AI 들이 여전히 서로의 마음을 읽지 못해 실패합니다.

이 논문은 **'요카이 학습 환경 (YLE)'**이라는 새로운 도구를 공개했습니다.

이 환경은 AI 가 움직이는 정보를 기억하고, 모호한 말을 해석하며, 상대방의 생각을 추론해야만 이길 수 있게 설계되었습니다.
이는 AI 가 인간과 협력할 때 필요한 **'진짜 팀워크'**를 기르기 위한 새로운 훈련장이 될 것입니다.

한 줄 요약:

"AI 가 쉬운 시험 (하나비) 에서는 천재였지만, 새로운 미스터리 게임 (요카이) 에서는 서로의 마음을 읽지 못해 엉망이 되었습니다. 이제 AI 는 진짜 팀워크를 배우기 위해 더 어려운 훈련을 시작해야 합니다."

유사한 논문