Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 직접 부딪히며 물리 법칙을 배우는 방법"**에 대해 설명합니다.

기존의 인공지능 로봇은 책으로 물리 법칙을 배웠을 뿐, 실제 세상에서 공이 어떻게 굴러가는지, 돌을 어떻게 쌓아야 넘어지지 않는지 같은 구체적인 경험을 해본 적이 없습니다. 그래서 로봇이 "마찰력"이라는 개념은 알지만, "이 특정 공이 이 특정 바닥에서 얼마나 멀리 굴러갈지"는 예측하지 못해 실패하곤 합니다.

이 연구는 **PhysMem(피즈메모)**이라는 시스템을 제안합니다. 이를 쉽게 이해할 수 있도록 **'어린 사공이 배를 타며 배우는 과정'**에 비유해 설명해 드리겠습니다.

🌊 비유: 로봇은 이제 막 배를 타는 '어린 사공'입니다

기존의 로봇 (VLM) 은 책상에서 '배 타기 이론'을 열심히 공부했습니다. 하지만 막상 바다 (실제 세상) 에 나가면 파도 (마찰력, 중력 등) 가 책과 다르게 느껴져서 배를 뒤집거나 목적지에 못 갑니다.

PhysMem은 이 로봇에게 **"배를 타면서 직접 경험을 쌓고, 그 경험을 정리해 다음에 더 잘 타는 법을 배우는 시스템"**을 선물해 줍니다.

1. 실패와 성공을 기록하는 '일기장' (기억 시스템)

로봇이 배를 타고 물에 빠지거나 (실패), 잘 나아가는 (성공) 순간마다 일기장에 적습니다.

"오늘은 파도가 세서 저렇게 밀었더니 뒤집혔어."
"오늘은 바람을 타고 저렇게 밀었더니 잘 갔어."

하지만 단순히 일기만 쓴다고 해서 배를 잘 타지는 않습니다. 중요한 건 그 일기를 어떻게 정리하느냐입니다.

2. 추측하기: "왜 그랬을까?" (가설 생성)

로봇은 일기장을 보며 **"아마도 파도가 세면 힘을 너무 세게 주면 안 되겠구나"**라고 추측합니다.

이 단계에서는 아직 100% 확신이 없습니다. 그냥 "아마도 그럴 거야"라는 가설 단계입니다.

3. 검증하기: "한 번 더 해봐!" (실험과 확인)

이게 이 시스템의 가장 멋진 점입니다. 로봇은 "아마도 안 되겠지"라고 생각하면, 바로 그 방법을 한 번 더 시도해 봅니다.

"이번엔 힘을 조금 줄여서 밀어보자."
만약 그 방법이 또 잘 통하면, 그 추측은 **'진짜 법칙 (원리)'**으로 인정받습니다.
만약 틀리면, 그 추측은 **"아, 아니었구나"**라고 버립니다.

4. 지혜로 만들기: "이제 배타기 비법" (원리 저장)

검증을 통과한 가설들은 로봇의 머릿속에 **'배타기 비법 (원리)'**으로 저장됩니다.

예: "파도가 세면 힘을 줄이고, 바람이 불면 힘을 더 줘야 한다."
이제 로봇은 매번 실패할 때마다 다시 시작하는 게 아니라, 이 비법을 기억해서 다음엔 바로 잘 할 수 있게 됩니다.

🧩 실제 실험: 로봇이 무엇을 배웠나요?

연구진은 로봇에게 세 가지 미션을 주었습니다.

퍼즐 맞추기 (Parts Organization):
- 상황: 이상한 모양의 블록들을 좁은 공간에 꽉 채워 넣어야 함.
- 배운 점: "이 블록은 90 도 돌리면 구석에 딱 들어맞아!"라는 비법을 발견했습니다. 처음엔 막 넣다가 충돌했지만, 경험을 쌓으니 공간을 효율적으로 쓰는 법을 터득했습니다.
공 굴리기 (Ball Navigation):
- 상황: 장애물을 피해 공을 목표 지점까지 굴려야 함.
- 배운 점: "장애물 바로 앞에서 세게 밀면 공이 튕겨서 넘어가지만, 살짝만 밀면 구멍을 통과해!"라는 법칙을 깨달았습니다. 처음엔 공이 장애물 위에 올라가서 꼼짝 못 했지만, 나중엔 공의 움직임을 정확히 예측했습니다.
돌 쌓기 (Balanced Stacking):
- 상황: 모양이 다른 돌들을 쌓아 탑을 만듦.
- 배운 점: "무겁고 평평한 돌을 바닥에 깔고, 작고 뾰족한 돌은 위에 올려야 넘어지지 않아!"라는 원리를 배웠습니다. 처음엔 계속 무너졌지만, 경험을 통해 어떤 돌을 먼저 쌓아야 하는지 알게 되었습니다.

💡 핵심 요약: 왜 이 연구가 중요한가요?

기존 방식 (기억만 검색): 로봇이 과거의 실패 경험을 그대로 복사해서 적용하려다 실패합니다. (예: "어제 이 공이 이렇게 굴렀으니 오늘도 이렇게 굴겠지" -> 하지만 바닥이 달라서 실패)
이 연구 방식 (PhysMem): 로봇은 과거 경험을 그대로 쓰지 않고, **"이 경험에서 어떤 원리를 뽑을 수 있을까?"**를 추측하고, 직접 다시 시도해 보며 검증합니다.

마치 아리스토텔레스가 말했듯, "우리는 하기 위해 배워야 한다"는 말처럼, 로봇은 직접 행동하고, 실패하고, 그 실패를 분석하여 지혜를 얻는 과정을 통해 진정한 물리 법칙을 이해하게 됩니다.

이 시스템은 로봇이 단순히 명령을 따르는 기계가 아니라, 경험을 통해 스스로 성장하고 더 똑똑해지는 존재로 만들어 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

시각 - 언어 모델 (VLM) 의 물리적 이해 한계: 기존 VLM 기반 로봇 플래너는 마찰력, 안정성, 운동량 등 일반적인 물리 개념을 언어적으로 설명할 수는 있지만, 구체적인 사물 (예: 특정 공, 특정 돌) 과 환경 (예: 특정 표면) 에서의 물리적 상호작용을 예측하는 데 어려움을 겪습니다.
선언적 지식과 물리적 근거의 괴리: 모델이 사전 학습된 지식 (declarative knowledge) 을 가지고 있더라도, 실제 실행 시 구체적인 물리 파라미터 (마찰 계수, 질량 분포 등) 가 시각적으로 명확하지 않거나 환경에 따라 달라지는 경우, 잘못된 판단으로 전체 작업 순서가 실패할 수 있습니다.
기존 접근법의 부족: 단순한 경험 기억 (Episodic Memory) 을 검색하여 재사용하는 방식은 환경이 미세하게 변할 경우 (예: 표면 마찰력 차이) 과거의 경험이 현재 상황에 맞지 않아 실패하거나, 검증 없이 과거 경험을 맹목적으로 적용하여 경직된 행동을 유발합니다. 또한, 모델 파라미터를 업데이트하지 않고 배포 시간 (Test-time) 에 학습하는 메커니즘이 부족합니다.

2. 방법론 (Methodology: PhysMem)

저자들은 PhysMem이라는 새로운 메모리 프레임워크를 제안합니다. 이는 모델 파라미터를 변경하지 않고, 배포 중 상호작용을 통해 물리 원리를 학습하고 진화시키는 **과학적 메모리 루프 (Scientific Memory Loop)**를 핵심으로 합니다.

핵심 구성 요소 및 프로세스

3 계층 메모리 구조 (Three-tier Memory System):
- 에피소드 메모리 (Episodic Memory): 원시적인 상호작용 경험 (관측, 행동, 결과) 을 저장.
- 작업 메모리 (Working Memory): 에피소드를 클러스터링하여 생성된 **가설 (Hypotheses)**을 임시로 저장하고 검증 중임을 표시.
- 장기 메모리 (Long-term Memory): 검증된 가설을 **원칙 (Principles)**으로 승격시켜 저장. 이는 인간이 읽을 수 있는 텍스트 형식 (예: "AVOID: ~할 때 X 하지 마라") 으로 표현됨.
과학적 메모리 루프 (Scientific Memory Loop):
- 경험 수집 및 공명 검사 (Resonance Checking): 새로운 경험을 기존 원칙과 비교합니다. 원칙과 일치하지 않는 '놀라움 (Surprise)'이 감지되면 학습을 트리거합니다.
- 가설 생성 (Hypothesis Generation): 유사한 경험 클러스터를 분석하여 VLM(또는 LLM) 을 통해 패턴을 추출하고 가설을 생성합니다 (예: "공이 아치형 장애물을 통과한 후에는 저속으로 밀어야 함").
- 행동 수준 귀인 (Action-Level Attribution): 에피소드 전체의 성공/실패가 아닌, **특정 행동 (Action)**이 가설에 부합하는지 여부를 분석하여 가설의 신뢰도를 업데이트합니다.
- 검증 및 원칙 승격 (Verification & Promotion):
  - 충분한 증거와 높은 신뢰도 (예: 80% 이상) 를 얻은 가설은 **원칙 (Principle)**으로 승격되어 장기 메모리에 저장됩니다.
  - 검증되지 않거나 반증된 가설은 폐기됩니다.
  - 메모리 폴딩 (Memory Folding): 검증된 원칙을 생성한 원시 경험들을 압축하여 컨텍스트 길이를 관리하고 효율성을 높입니다.
적용 방식:
- 로봇이 작업을 수행할 때, VLM 플래너는 현재 상황과 함께 **검증된 원칙 (Long-term Memory)**과 **검증 중인 가설 (Working Memory)**을 프롬프트에 주입받아 결정을 내립니다.
- 이는 모델의 가중치를 업데이트하지 않고, **컨텍스트 (Context)**를 동적으로 변경하여 학습 효과를 얻는 방식입니다.

3. 주요 기여 (Key Contributions)

배포 시간 학습 (Test-Time Learning) 프레임워크: 모델 재학습 없이 상호작용을 통해 물리 원리를 추상화하고 진화시키는 최초의 체계적인 접근 중 하나입니다.
검증 기반 추상화 (Verified Abstraction): 단순한 경험 검색 (Retrieval) 이 아닌, 가설 생성 $\rightarrow$ 검증 $\rightarrow$ 원칙화 과정을 통해 일반화된 물리 법칙을 학습합니다. 이는 환경 변화에 대한 강건성을 보장합니다.
해석 가능한 지식 (Interpretability): 학습된 지식이 자연어 원칙 (예: "무거운 돌은 평평한 면이 아래로 오게 하라") 으로 표현되어 인간이 inspect 하고 수정할 수 있습니다.
실제 로봇 및 시뮬레이션 검증: 3 가지 실제 물리 조작 작업 (부품 정리, 공 네비게이션, 균형 잡기) 과 대규모 시뮬레이션 벤치마크에서 유효성을 입증했습니다.

4. 실험 결과 (Results)

성능 향상:
- 부품 정리 (Parts Organization): 원칙 추상화를 적용한 PhysMem 은 **76%**의 성공률을 기록한 반면, 단순 경험 검색 (Direct Retrieval) 은 **23%**에 그쳤습니다.
- 학습 곡선: 30 분 이상의 배포 세션 동안 성능이 지속적으로 향상되었습니다 (예: 공 네비게이션에서 점수 0.7 에서 14.7 로 상승).
- VLM 백본 확장성: Gemini-3-Flash, GPT-5.1 등 4 가지 다양한 VLM 에서 테스트되었으며, 모델의 기본 추론 능력이 높을수록 PhysMem 을 통한 학습 효과 (+23% 등) 가 더 크게 나타났습니다.
원칙 수의 영향: 학습된 원칙 수가 16~64 개 정도에 도달하면 성능이 안정화되며, 너무 많은 원칙은 오히려 노이즈를 유발할 수 있음을 확인했습니다.
OOD (Out-of-Distribution) 전이: 물리 법칙이 유사한 작업에서는 기존 원칙이 전이되어 성능을 높였으나, 물리 특성이 완전히 다른 새로운 객체 (예: 다른 공) 에서는 **배포 시간 적응 (Test-time Adaptation)**이 필수적이었으며, PhysMem 은 이를 성공적으로 수행했습니다.
Ablation Study:
- 추상화 (Abstraction) 의 중요성: 단순 경험 검색은 복잡한 작업에서 실패율이 급증했습니다.
- 검증 (Verification) 의 필요성: 검증 없이 가설을 바로 적용하면 성능이 저하됩니다.
- 망각 (Forgetting) 의 효율성: 오래된 경험을 잊는 메커니즘이 없으면 토큰 사용량이 3.4 배 증가하고 복잡한 작업에서 성능이 떨어집니다.

5. 의의 및 의의 (Significance)

로봇의 '경험을 통한 지혜' 구현: 로봇이 단순히 행동을 반복하는 것을 넘어, 상호작용을 통해 물리 법칙을 추상화하고 이를 미래 결정에 적용하는 인간과 유사한 학습 능력을 보여줍니다.
안전하고 효율적인 적응: 모델 재학습 없이도 새로운 환경에 적응할 수 있어, 실제 로봇 배포 시 유연성과 안전성을 크게 향상시킵니다.
해석 가능한 AI: 블랙박스 형태의 학습이 아닌, 인간이 이해하고 수정할 수 있는 규칙 (Principles) 으로 지식을 축적하므로, 신뢰할 수 있는 로봇 제어 시스템 구축에 기여합니다.
미래 연구 방향: 이 연구는 VLM 기반 로봇이 단순한 지시 수행을 넘어, 물리 세계의 복잡성을 스스로 이해하고 진화하는 자율적 학습 에이전트로 발전할 수 있는 중요한 토대를 마련했습니다.

요약: PhysMem 은 VLM 로봇이 모델 파라미터 수정 없이, 상호작용 경험을 통해 물리 원리를 '가설 - 검증 - 원칙화' 과정을 거쳐 학습하고, 이를 실시간으로 플래닝에 반영하여 복잡한 물리 작업의 성공률을 획기적으로 높이는 혁신적인 프레임워크입니다.