DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

이 논문은 물리 법칙의 불변성을 학습하여 외삽 일반화 능력을 향상시키기 위해 해밀토니안 기반 호기심 보상을 활용한 대칭성 탐색 전략과 자체 지도 대조 학습을 결합한 'DreamSAC' 프레임워크를 제안합니다.

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

드림 SAC: 물리 법칙을 직접 탐험하며 배우는 AI 의 이야기

이 논문은 **"AI 가 세상을 어떻게 더 똑똑하게 이해할 수 있을까?"**라는 질문에 대한 새로운 답을 제시합니다. 기존 AI 들이 겪던 큰 실수를 지적하고, 이를 해결하는 창의적인 방법 '드림 SAC(DreamSAC)'을 소개합니다.

1. 기존 AI 의 문제: "무작위 TV 시청자" vs "물리학자"

기존의 AI(세계 모델) 들은 마치 무작위로 채널을 돌리며 TV 를 보는 사람과 같습니다.

  • 무엇을 하나요? 화면에 나타나는 픽셀 (이미지) 패턴을 열심히 외웁니다. "공이 왼쪽으로 가면 오른쪽으로 튕긴다"는 식의 통계적 상관관계를 기억하죠.
  • 어떤 문제가 있나요? 익숙한 상황에서는 잘하지만, 전혀 새로운 상황 (예: 공의 무게가 갑자기 2 배가 되거나, 중력이 변하는 상황) 이면 완전히 엉망이 됩니다. 왜냐하면 그들은 **'왜' 그렇게 움직이는지 (물리 법칙)**를 모르고, **'무엇이' 어떻게 움직였는지 (화면 패턴)**만 외웠기 때문입니다.

이들은 시각적으로는 다양해 보이지만, 물리적으로는 뻔한 데이터만 보고 학습해서, 실제 세상의 법칙을 깨닫지 못합니다.

2. 드림 SAC 의 해결책: "호기심 많은 물리학자"가 되다

저자들은 이 문제를 해결하기 위해 AI 를 능동적인 탐험가로 바꾸었습니다. 이를 위해 두 가지 핵심 장치를 도입했습니다.

① 대칭성 탐험 (Symmetry Exploration): "일으켜 세우는 호기심"

기존 AI 는 가만히 있는 데이터를 보지만, 드림 SAC 는 스스로 환경을 건드려보며 배웁니다.

  • 비유: 아이가 장난감 자동차를 볼 때, 그냥 바라보는 게 아니라 바퀴를 굴리고, 벽에 부딪히고, 무거운 돌을 올려놓아 "어? 왜 이렇게 안 움직이지?"라고 궁금해하며 실험을 반복하는 것과 같습니다.
  • 원리: AI 는 **'해밀토니안 (에너지 법칙) 호기심'**이라는 내재적 동기를 가집니다. "내가 무엇을 했을 때 에너지가 가장 크게 변할까?"를 찾아서 적극적으로 행동합니다. 이를 통해 AI 는 물리 법칙의 핵심 (에너지 보존 법칙 등) 을 깨닫는 데 필요한 가장 중요한 데이터를 스스로 수집합니다.

② 해밀토니안 세계 모델: "물리 법칙을 내장한 두뇌"

수집된 데이터를 학습할 때, 일반적인 AI 는 픽셀을 외우지만, 드림 SAC 는 **물리 법칙 (에너지, 운동량 보존)**을 수학적으로 내장한 구조를 사용합니다.

  • 비유: 일반적인 AI 가 "이 그림은 공이 굴러가는 그림이야"라고 외우는 반면, 드림 SAC 는 "공의 질량과 속도를 계산해서 다음 위치를 물리 공식으로 예측하는" 두뇌를 가집니다.
  • 핵심 기술: 카메라 각도가 달라져도 (시점 변화) 물리 법칙은 변하지 않는다는 점을 이용합니다. AI 는 카메라가 움직이는 '소음'을 제거하고, 사물 자체의 '물리 상태'만 남기는 **특수한 필터 (대조 학습)**를 통해 학습합니다.

3. 실제 효과: 새로운 세상에서도 당황하지 않는 AI

이 방법을 적용한 결과, 드림 SAC 는 놀라운 능력을 보여줍니다.

  • 예측 능력: 같은 환경에서도 다른 AI 들보다 훨씬 정확하게 미래를 예측합니다. (오류가 10 배 이상 줄었습니다!)
  • 적응력: 훈련할 때 보지 못했던 새로운 중력이나 미끄러운 바닥에 놓여도, 금방 적응하여 임무를 수행합니다. 마치 물리 법칙을 이해한 사람이라면 새로운 환경에서도 빠르게 움직일 수 있는 것과 같습니다.
  • 제 0 회 (Zero-shot) 일반화: 아예 새로운 물리 법칙이 적용된 세상에서도, 기존에 배운 '물리 법칙'을 바탕으로 새로운 상황을 추론해냅니다.

4. 한 줄 요약

"기존 AI 는 TV 화면의 패턴을 외우는 '암기왕'이라면, 드림 SAC 는 직접 장난감을 부수고 조립하며 물리 법칙을 깨닫는 '호기심 많은 과학자'입니다."

이 연구는 AI 가 단순히 데이터를 외우는 것을 넘어, 세상의 근본적인 법칙 (물리 법칙) 을 스스로 발견하고 이해함으로써, 예측 불가능한 현실 세계에서도 robust(튼튼한) 하게 작동할 수 있는 길을 열었습니다.