Probabilistic Dreaming for World Models

이 논문은 확률적 방법을 통해 잠재 상태의 병렬 탐색과 상호 배타적 미래 가설 유지를 가능하게 하여, 기존 Dreamer 모델보다 MPE SimpleTag 환경에서 더 높은 점수와 낮은 분산을 달성한 '확률적 꿈꾸기 (Probabilistic Dreaming)' 기법을 제안합니다.

Gavin Wong

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 어떻게 더 똑똑하게 상상할 수 있을까?"**에 대한 흥미로운 실험 결과입니다.

기존의 AI(특히 'Dreamer'라는 모델) 는 현실에서 경험을 쌓는 것뿐만 아니라, 머릿속으로 **상상 (꿈)**을 통해 학습합니다. 마치 우리가 자는 동안 꿈을 꾸며 다음 날을 대비하듯, AI 도 가상의 상황을 그려보며 실수를 반복하지 않고 빠르게 배우는 거죠.

하지만 이 논문은 기존 AI 의 상상 방식에 약간의 결함이 있다고 지적하며, 이를 해결하기 위해 **'확률적 상상 (Probabilistic Dreaming)'**이라는 새로운 방식을 제안합니다.


🧐 기존 AI 의 문제점: "회색빛 평균의 함정"

기존 AI 는 미래를 상상할 때, 단 하나의 시나리오만 그리곤 했습니다.
예를 들어, 사냥꾼이 "왼쪽으로 쫓아갈까?" 아니면 "오른쪽으로 기다릴까?"라는 두 가지 선택지가 있을 때, 기존 AI 는 머릿속에서 **"그럼 중간 어딘가에 있겠지?"**라고 생각하며 회색빛 평균을 그립니다.

  • 비유: 길을 가다가 왼쪽으로 도망칠지, 오른쪽으로 도망칠지 고민할 때, AI 는 "그럼 정중앙으로 도망치자"라고 결정하는 꼴입니다. 하지만 정중앙에는 벽이 있거나 사냥꾼이 기다리고 있을 수 있어, 이는 불가능한 시나리오가 됩니다.

💡 이 논문이 제안한 해결책: "다양한 꿈을 꾼다"

저자는 AI 가 여러 개의 시나리오를 동시에 상상하게 만들었습니다. 이를 위해 세 가지 핵심 아이디어를 사용했습니다.

1. 파티클 필터 (Particle Filter): "여러 개의 나"를 상상하다

AI 가 머릿속에서 **여러 개의 '나' (입자, Particle)**를 만들어냅니다.

  • 비유: 사냥꾼이 왼쪽으로 올지 오른쪽으로 올지 모를 때, AI 는 **"왼쪽으로 도망치는 나 (입자 A)"**와 **"오른쪽으로 도망치는 나 (입자 B)"**를 동시에 상상합니다.
  • 이렇게 하면 AI 는 "중간"이라는 불가능한 길을 선택하는 대신, 실제 가능한 두 가지 미래를 모두 준비할 수 있게 됩니다.

2. 레이저 빔 탐색 (Latent Beam Search): " branching tree"

각각의 '나'가 상상하는 미래가 갈라지는 가지 (Branch) 를 더 많이 만들어냅니다.

  • 비유: 나무가 가지치기를 하듯, 각 시나리오가 여러 가지 행동으로 뻗어나가게 합니다. "왼쪽으로 도망친다면, 그다음엔 뛰어넘을까, 숨을까?"를 모두 미리 계산해 보는 것입니다.

3. 자유 에너지 최소화: "가장 유망한 꿈만 고르기"

무작정 모든 상상을 다 할 수는 없으니, 가장 유망한 꿈만 남깁니다.

  • 비유: 수많은 꿈 중에서 **"보상이 가장 크고, 내가 아직 모르는 새로운 것 (호기심) 을 발견할 가능성이 높은 꿈"**을 선택해 실제 행동으로 연결합니다.

🏆 실험 결과: 무엇이 달라졌을까?

이 실험은 '사냥꾼과 도망자' 게임에서 진행되었습니다. 사냥꾼은 임의로 전략을 바꾸기 때문에, AI 는 예측이 매우 어려웠습니다.

  • 기존 AI (Dreamer): 사냥꾼의 전략이 바뀌면 잠시 멍해지거나 (Freeze), 불가능한 중간 길을 선택해 잡힙니다.
  • 새로운 AI (ProbDreamer):
    • 성능 향상: 점수가 약 4.5% 향상되었습니다.
    • 안정성: 실수가 훨씬 줄어들어, 게임 결과의 변동성 (변덕) 이 28% 감소했습니다.
    • 핵심 발견: 사냥꾼이 '추격'과 '매복' 두 가지 전략만 쓴다면, AI 가 **단 2 개의 입자 (나)**만 만들어도 완벽하게 대응할 수 있었습니다.

⚠️ 하지만 아직 넘어야 할 산이 있습니다

논문은 성공적인 결과뿐만 아니라, 어려운 점도 솔직하게 털어놓았습니다.

  1. 입자 (나) 가 너무 많으면 안 된다: 사냥꾼이 2 가지 전략만 쓴다면 2 개의 입자가 최고였지만, 입자를 너무 많이 만들면 오히려 소음 (Noise) 에 휩쓸려 성능이 떨어졌습니다. 환경이 복잡해질수록 입자 수를 어떻게 조절할지가 관건입니다.
  2. 꿈을 현실로 검증할 수 없다: AI 가 상상하는 동안은 실제 사냥꾼의 움직임을 볼 수 없습니다. 그래서 AI 가 **"가장 좋은 꿈"**을 고르려다, **실제론 불가능한 '환상 (Hallucination)'**을 너무 믿어버리는 경우가 있었습니다. 마치 "내가 이길 거야!"라고 믿고 무모한 도박을 하는 것과 비슷합니다.

🚀 결론: AI 의 상상력을 키우다

이 논문은 **"AI 가 단 하나의 미래만 상상하는 대신, 여러 가지 가능성을 동시에 품고 있어야 더 똑똑해진다"**는 것을 증명했습니다.

이는 마치 우리가 미래를 계획할 때, "A 라는 길이 좋겠지"라고 단정 짓는 대신, **"A 라면 이렇게 되고, B 라면 저렇게 되겠지"**라고 여러 시나리오를 준비하는 것과 같습니다.

이 기술이 더 발전하면, AI 는 불확실한 세상에서도 더 유연하고 창의적으로 문제를 해결할 수 있게 될 것입니다. 특히 인간의 호기심과 학습 방식을 모방하는 '지능형 AI'를 만드는 데 중요한 한 걸음이 될 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →