Reward Prediction with Factorized World States

이 논문은 언어 모델을 활용하여 비구조화된 관측을 계층적 객체 - 속성 구조로 변환하는 'StateFactory'를 제안함으로써, 훈련 데이터의 편향 없이 다양한 도메인에서 목표 상태와의 의미적 유사성을 기반으로 한 정확한 보상 예측과 향상된 에이전트 계획 성능을 달성함을 보여줍니다.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 "로봇이나 AI 가 목표를 달성할 때, 얼마나 잘하고 있는지 스스로 판단하는 방법" 에 대한 연구입니다.

기존의 AI 는 "정답"을 알려주는 선생님 (지도 학습) 을 통해 reward(보상) 를 배우는데, 이는 새로운 상황에서는 잘 못 할 수 있습니다. 이 논문은 "세상을 잘 이해하는 것만으로도, 스스로 보상을 예측할 수 있다" 는 아이디어를 제시합니다.

핵심 내용을 일상적인 비유로 설명해 드릴게요.


1. 문제: "선생님이 없으면 어떻게 해?"

상상해 보세요. 아이가 요리 배울 때, 매번 "잘했어! 100 점!"이라고 말해주는 선생님이 옆에 있다면요? 아이는 그 선생님이 가르친 레시피만 잘 따라할 뿐, 새로운 재료가 나오면 당황합니다.

기존 AI 도 비슷합니다. 특정 게임이나 환경에서 "어떤 행동을 하면 점수가 오른다"고 가르쳐주면 그 게임만 잘합니다. 하지만 환경이 조금만 바뀌어도 (예: 주방이 달라지거나, 목표가 조금 변하면) AI 는 "내가 지금 잘하고 있는 건가?"를 판단하지 못해 길을 잃습니다.

2. 해결책: "StateFactory(상태 공장)"

저자들은 AI 가 스스로 상황을 이해하고 보상을 계산할 수 있게 해주는 'StateFactory' 라는 새로운 방법을 만들었습니다.

비유: "산더미 같은 뉴스 기사 정리하기"

  • 기존 방법 (Unstructured): AI 가 세상을 볼 때, "주방에 냄비가 있고, 가스레인지가 켜져 있고, 바닥에 물이 있고, 창문은 열려 있고..." 하는 식의 산더미 같은 텍스트를 그대로 봅니다. 이걸 보면 AI 는 "아, 냄비가 뜨거운 건가? 아니면 바닥이 젖은 게 문제인가?" 헷갈려 합니다.
  • StateFactory 방법: 이 산더미 같은 정보를 가공 (Factorize) 해서 정리합니다.
    • 객체 (Object): 냄비, 가스레인지, 바닥
    • 속성 (Attribute): 냄비 (뜨거움), 가스레인지 (켜짐), 바닥 (젖음)

이렇게 "누가 (객체) 어떤 상태 (속성) 에 있다" 는 식으로 레고 블록처럼 쪼개서 정리하면, AI 는 혼란 없이 상황을 파악할 수 있습니다.

3. 보상 예측: "목표와 현재 상태 비교하기"

이제 AI 는 이렇게 정리된 정보를 바탕으로 "내가 얼마나 잘하고 있지?"를 계산합니다.

  • 목표 (Goal): "뜨거운 냄비를 식탁에 올려라."
  • 현재 상태 (State): "냄비가 가스레인지 위에 있고 뜨겁다."

StateFactory 는 목표와 현재 상태를 비교합니다.

  • 냄비가 식탁에 있나? -> 아님 (0 점)
  • 냄비가 뜨겁긴 하나? -> 맞음 (점수 상승)
  • 냄비가 가스레인지에서 내려왔나? -> 아님 (점수 상승)

이처럼 목표와 현재 상태의 '의미적 거리'를 계산해서, 단계별로 점수를 매겨줍니다. 선생님이 점수를 줘서 가르치는 게 아니라, AI 가 스스로 "아, 냄비가 식탁에 가까워졌네? 그럼 점수가 올라가겠구나!" 하고 판단하는 것입니다.

4. 실험 결과: "새로운 환경에서도 잘한다"

저자들은 5 가지 다른 환경 (요리, 과학 실험, 웹 쇼핑, 퍼즐 등) 에서 이 방법을 테스트했습니다.

  • 기존 AI (지도 학습): 특정 환경 (예: 요리) 에서만 점수를 잘 맞췄지만, 다른 환경 (예: 과학 실험) 으로 가면 완전히 엉뚱한 점수를 매겼습니다. (선생님의 말만 믿다가 새로운 상황에 당황한 셈)
  • StateFactory: 어떤 환경이든 처음 보는 상황 (Zero-shot) 에서도 목표와 현재 상태를 비교해 정확한 점수를 매겼습니다.
    • 결과: 기존 방법보다 60%~8% 더 정확한 보상 예측을 했습니다.
    • 실제 효과: 이 정확한 점수 덕분에 AI 가 미로를 헤매지 않고 목표에 더 빨리 도달했습니다. (성공률 20% 이상 향상)

5. 요약: 왜 이것이 중요한가?

이 연구는 "AI 에게 정답을 외우게 하는 게 아니라, 세상을 구조적으로 이해하는 법을 가르쳐주면, AI 는 스스로 길을 찾을 수 있다" 는 것을 증명했습니다.

  • StateFactory: 세상을 '객체'와 '속성'으로 쪼개서 정리하는 정리 정돈 기술.
  • 효과: 새로운 환경에서도 스스로 "내가 잘하고 있구나"를 판단하여, 더 똑똑하고 유연하게 행동하게 됩니다.

마치 아이가 요리할 때, "선생님이 점수를 매겨주는 게 아니라, '냄비가 식탁에 가까워졌으니 성공에 한 걸음 더 다가갔다'는 논리를 스스로 깨우치는 것"과 같습니다. 이렇게 되면 AI 는 어떤 새로운 집, 새로운 주방에서도 요리할 수 있는 것입니다.