Foundation World Models for Agents that Learn, Verify, and Adapt Reliably Beyond Static Environments

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"미래의 인공지능 에이전트 **(AI)를 제안합니다.

기존의 AI 는 주로 "정해진 규칙 안에서 점수를 최대한 많이 얻는 법"을 배우는 데 집중했습니다. 하지만 현실 세계는 예측 불가능하고 끊임없이 변합니다. 이 논문은 AI 가 단순히 점수를 잘 따는 것을 넘어, 스스로를 검증하고, 새로운 상황에 맞춰 안전하게 적응할 수 있는 능력을 갖추어야 한다고 말합니다.

이 복잡한 아이디어를 이해하기 쉽게 세 가지 비유로 설명해 드리겠습니다.

1. 문제: "운전면허 시험" vs "실제 도로"

지금까지의 AI 학습 방식은 마치 운전면허 시험장에서 연습하는 것과 비슷합니다.

**기존 방식 **(강화 학습) 시험장에 있는 고정된 장애물을 피하고, 점수를 잘 받는 법을 수많은 반복을 통해 외웁니다. 하지만 실제 도로에 나가면 갑자기 나타난 공사 구간이나 예측 못한 사고 상황에는 당황해서 사고를 낼 수 있습니다.
**형식적 검증 **(Formal Verification) 반대로, 수학적으로 완벽하게 증명된 '안전한 운전법'을 가진 로봇이 있습니다. 이 로봇은 절대 사고를 내지 않지만, 시험장에 없는 새로운 상황 (예: 갑자기 내리는 폭우) 이 나오면 "이건 내 규칙에 없어요"라고 말하며 멈춰버립니다.

이 논문이 말하려는 것: 우리는 이 두 가지의 장점을 합쳐야 합니다. **새로운 도로 **(변화하는 환경)

2. 해결책: "스스로 검증하는 내비게이션" (기초 세계 모델)

저자는 이를 **'기초 세계 모델 **(Foundation World Model)이라고 부릅니다. 이를 쉽게 비유하자면, **AI 가 머릿속에 그리는 '스스로 검증 가능한 지도'**입니다.

이 지도는 다음과 같은 4 가지 핵심 기능을 가집니다.

① "명확한 나침반" (학습 가능한 보상 모델)

기존 AI 는 "점수를 많이 받아"라는 막연한 지시만 받습니다. 하지만 이 시스템은 **"물건을 배달하되, 절대 사람과 부딪히지 마라"**는 명확한 논리 규칙을 나침반으로 삼습니다. AI 는 이 규칙을 수학적으로 해석해서, 무엇을 해야 '안전한 성공'인지 정확히 이해합니다.

② "실시간 안전 검사관" (학습 중 검증)

기존 방식은 AI 가 다 배운 뒤에 "혹시 위험한 게 없나?"라고 검사합니다. 하지만 이 시스템은 배우는 과정 자체에 검사관을 둡니다.

비유: 운전자가 핸들을 꺾는 순간, 내비게이션이 "저기 왼쪽에 사람이 있어요! 위험합니다!"라고 즉시 경고하고 핸들을 바로잡습니다. AI 가 실수할 틈을 주지 않고, 학습하는 동안에도 안전 규칙을 지키는지 계속 확인합니다.

③ "지도의 정확도 체크" (추상화 보정)

AI 가 세상을 이해할 때는 모든 세부 사항을 다 기억할 수 없으므로, 중요한 것만 추려서 '간략화된 지도'를 그립니다. 문제는 이 지도가 실제와 얼마나 다른지 모를 수 있다는 점입니다.

비유: AI 는 "이 길은 안전해"라고 생각하지만, 실제로는 길가에 공사가 시작되었을 수 있습니다. 이 시스템은 **"내 지도가 이 구간에서는 90% 정확하고, 저 구간은 아직 불확실하니까 조심해야 해"**라고 스스로 신뢰도를 계산합니다. 신뢰도가 낮으면 AI 는 더 신중하게 행동하거나 새로운 정보를 수집합니다.

④ "새로운 길 찾기" (LLM 과의 협업)

완전 새로운 환경 (예: 갑자기 길이 막힌 창고) 에 들어갔을 때, AI 는 당황하지 않습니다.

비유: AI 는 **대화를 잘하는 비서 **(LLM)와 함께 일합니다.
1. 비서: "저기 길이 막혔네요. 새로운 규칙을 만들어 볼까요? '막힌 길은 우회해서 가자'."
2. 검증관: "그 규칙이 안전할까? 수학적으로 확인해 보니 OK."
3. AI: "알겠습니다! 이제 그 새로운 규칙대로 움직이겠습니다."
  이 과정을 통해 AI 는 처음 보는 상황에서도 새로운 규칙을 만들어내고, 검증받으며, 즉시 적용할 수 있습니다.

3. 결론: 왜 이것이 중요한가?

이 논문의 핵심 메시지는 **"AI 가 단순히 똑똑해지는 것 **(Efficient)입니다.

과거: AI 는 "어떻게 하면 더 잘할까?"만 고민했습니다.
**미래 **(이 논문의 제안) AI 는 "내가 지금 하는 일이 안전한가? 이 규칙이 맞는지 어떻게 증명할 수 있을까?"를 스스로 고민합니다.

이런 시스템을 만들면, 공장 로봇이 갑자기 기계가 고장 나도 안전하게 대처하거나, 자율주행차가 예상치 못한 도로 상황에서도 논리적으로 판단하여 사고를 막을 수 있게 됩니다.

한 줄 요약:

"이 논문은 AI 가 **스스로 안전 규칙을 만들고, 그 규칙을 수학적으로 검증하며, 새로운 세상에서도 흔들리지 않고 적응할 수 있는 '지혜로운 자율주행자'**가 되기를 꿈꾸는 청사진입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현재 자율 에이전트 기술은 두 가지 상반된 패러다임의 한계에 직면해 있습니다.

강화학습 (RL) 의 한계: RL 은 고차원 게임이나 복잡한 제어 작업에서 뛰어난 성능을 보이지만, 주로 보상 최대화와 대량 데이터 수집에 의존합니다. 이로 인해 학습된 정책의 구조에 대한 이해가 부족하고, '보상 해킹 (reward hacking)'에 취약하며, 안전 제약 조건을 위반할 수 있습니다. 또한, 학습된 모델이 동적 환경에서 새로운 상황에 적응할 때 보장이 사라집니다.
반응형 합성 (Reactive Synthesis) 의 한계: 형식적 방법 (Formal Methods) 에 기반한 합성은 명세 (Specification) 를 만족하는 정책을 '설계 단계에서부터' 보장할 수 있어 신뢰성이 높습니다. 하지만 이는 환경의 명시적이고 유한한 모델이 필요하며, 상태 공간이 크거나 불확실성이 높은 개방형 (Open-ended) 환경에서는 계산 비용이 너무 커 실용성이 떨어집니다.

핵심 문제: 에이전트가 정적 환경이 아닌 개방형 환경에서 효율적으로 학습하면서도 형식적 보장을 유지하고, 새로운 상황에 적응할 수 있는 통합된 프레임워크가 부재합니다.

2. 방법론 (Methodology)

저자는 **기반 세계 모델 (Foundation World Models)**이라는 새로운 비전을 제시하며, 학습, 검증, 추론을 하나의 폐쇄 루프 (Closed Loop) 로 통합하는 4 가지 핵심 구성 요소를 제안합니다.

(1) 명세 기반 학습 가능한 보상 모델 (Learnable Reward Models from Specifications)

수동으로 설계된 스칼라 보상 함수 대신, 논리식 (Temporal Logic) 이나 프로그램으로 표현된 **작업 명세 (Specification, $\phi$ )**에서 보상 모델을 자동 생성합니다.
기존 LTL(Linear Temporal Logic) 기반 접근법의 비효율성을 극복하기 위해, 계산적으로 효율적이고 PAC-learnable(확률적 다항 시간 학습 가능) 한 논리 조각 (예: De Alfaro et al. 의 할인 논리) 을 활용하여 최적화와 명세 만족도를 정렬합니다.

(2) 학습 중 통합된 적응형 형식 검증 (Adaptive Formal Verification Integrated Throughout Learning)

검증은 학습이 끝난 후 수행되는 사후 (Post-hoc) 작업이 아니라, 학습 과정에 지속적으로 통합됩니다.
안전 정책 개선 (Safe Policy Improvement, SPI) 이론을 확장하여, 에이전트가 내부 세계 모델을 업데이트할 때마다 명세 만족도가 어떻게 변하는지 불확실성 하에 평가합니다.
검증기는 외부 감시자가 아닌 공진화 (Co-evolving) 모듈로 작동하며, 안전 마진 (Safety Margin) 이 임계치 아래로 떨어지면 정책 업데이트를 차단하거나 탐색을 재지시합니다.

(3) 온라인 추상화 보정 (Online Abstraction Calibration)

학습된 잠재 공간 (Latent Space) 이나 세계 모델이 실제 환경과 얼마나 일치하는지를 정량화하는 **추상화 오차 (Abstraction Error)**를 실시간으로 추정합니다.
에이전트가 방문하지 않은 영역이나 새로운 동역학을 마주할 때, 모델의 신뢰도를 '신뢰 반경 (Confidence Radius)'으로 표현하여 검증 및 계획 (Planning) 의 범위를 동적으로 조절합니다.

(4) 검증기 유도 테스트 시간 합성 (Test-time Synthesis Guided by Verifiers)

**LLM(대형 언어 모델)**을 명세 정제기 (Specification Refiner) 로 활용합니다.
에이전트가 새로운 환경 (예: 통로 차단) 을 마주치면, LLM 이 명세를 수정하거나 작업을 분해하여 형식적 모델링 언어 (예: Prism) 로 변환합니다.
생성된 프로그램은 **형식적 검증기 (Verifier)**를 통과하여 유효성을 확인받고, 이를 기반으로 새로운 정책이나 세계 모델을 즉시 합성합니다. 이 과정은 가설 생성 $\rightarrow$ 검증 $\rightarrow$ 경험 수집 $\rightarrow$ 수정의 반복 루프로 작동합니다.

3. 주요 기여 (Key Contributions)

RL 과 형식적 방법의 통합 프레임워크: 학습의 확장성과 형식적 방법의 신뢰성을 결합한 'RL-Synthesizers' 개념을 정립했습니다.
기반 세계 모델 (Foundation World Models) 정의: 단일 작업에 국한되지 않고, 추상화, 보정, 의미적 지식을 통합하여 다양한 작업과 도메인에서 재사용 가능한 지속적이고 구성 가능한 (Compositional) 표현을 정의했습니다.
동적 검증 메커니즘: 검증기를 학습 과정의 일부로 통합하여, 에이전트가 자신의 모델 신뢰도를 인지하고 (Self-calibrating), 불확실성 하에서도 안전을 보장하는 적응형 제어 신호를 생성하는 방식을 제안했습니다.
LLM 과 형식적 검증의 시너지: LLM 이 생성한 자연어 기반 명세를 형식적 논리로 변환하고 검증기를 통해 피드백을 주는 상호작용 루프를 설계하여, 재학습 없이도 새로운 환경에 빠르게 적응하는 방법을 제시했습니다.

4. 결과 및 시나리오 (Results & Scenarios)

이 논문은 실험적 결과보다는 비전 (Vision) 과 이론적 프레임워크를 제시하는 'Blue Sky Ideas' 트랙 논문이므로, 구체적인 수치적 결과보다는 개념적 타당성을 강조합니다.

시나리오 (패키지 배송 에이전트):
- 상황: 창고에서 작업자와 로봇을 피하면서 물건을 배송해야 하는 에이전트.
- 적용:
  1. "충돌 없이 결국 배송한다"는 명세를 보상 모델로 변환.
  2. 학습 중 교통 패턴이 변해 안전 마진이 감소하면 검증기가 위험한 업데이트를 차단.
  3. 통로가 막히는 새로운 상황 발생 시, LLM 이 명세를 수정하고 검증기를 통해 새로운 회피 경로 프로그램을 생성.
  4. 생성된 프로그램이 검증되면 이를 세계 모델로 사용하여 즉시 새로운 정책을 합성.
기대 효과: 에이전트는 전체 모델을 처음부터 재학습하지 않고도, 검증된 구성 요소를 조합하여 새로운 상황에 대응할 수 있게 됩니다.

5. 의의 및 중요성 (Significance)

신뢰할 수 있는 자율성의 새로운 패러다임: "효율적인 학습"에서 "신뢰할 수 있는 학습"으로 AI 에이전트의 목표를 전환합니다. 에이전트가 단순히 행동을 최적화하는 것을 넘어, 자신의 행동을 설명하고 정당화 (Explain and Justify) 할 수 있는 능력을 갖추게 합니다.
개방형 환경 대응: 정적 시뮬레이션이 아닌, 예측 불가능한 실제 세계 (Real-world) 에서 작동하는 에이전트에게 필수적인 '적응성'과 '안전 보장'을 동시에 제공합니다.
산업적 적용 가능성: 의료, 자율주행, 에너지 관리 등 안전이 최우선인 분야에서 RL 의 블랙박스 문제를 해결하고, 형식적 검증의 엄격함을 유지하면서 유연성을 확보할 수 있는 길을 엽니다.
LLM 의 역할 재정의: LLM 을 단순한 생성 도구가 아닌, 형식적 논리와 결합된 '지식 기반 추론 및 명세 생성 엔진'으로 활용함으로써, 추론의 정확성을 높이는 데 기여합니다.

결론적으로, 이 논문은 강화학습과 형식적 검증을 대립되는 개념이 아닌 상호 보완적인 요소로 통합하여, **학습, 추론, 검증이 유기적으로 결합된 차세대 자율 에이전트 (Foundation World Models)**의 청사진을 제시합니다.