One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

이 논문은 이기적인 다중 작업 환경에서 그래디언트 충돌을 완화하기 위해 전문가 혼합 (MoE) 아키텍처를 도입하고 학습 과정 중 동적 파라미터 확장 (DPS) 전략을 적용하여, 단일 모델로도 전문 단일 작업 에이전트와 경쟁력 있는 성능을 달성하면서도 환경 상호작용을 71.5% 로 줄인 'ScaleZero'를 제안합니다.

Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 1. 문제 상황: "만능 요리사"의 좌절

상상해 보세요. 한 명의 요리사 (AI) 가 있습니다. 이 요리사는 아이스크림을 만드는 일부터 불로 구운 스테이크, 그리고 정교한 디저트까지 모든 요리를 한 번에 배우려고 합니다.

  • 기존 방식 (UniZero 등): 이 요리사는 모든 재료를 한 큰 냄비 (단일 모델) 에 넣고 섞어서 끓입니다.
    • 문제점: 아이스크림은 차갑게, 스테이크는 뜨겁게 조리해야 하는데, 같은 냄비에서 동시에 하려니 서로 방해가 됩니다. (이를 **'경쟁하는 그라디언트'**라고 합니다.)
    • 결과: 간단한 요리 (아이스크림) 는 금방 익히지만, 복잡한 요리 (스테이크) 는 자꾸 망칩니다. 요리사의 뇌가 혼란스러워져서 더 이상 새로운 것을 배우지 못하게 됩니다. (이를 **'가소성 붕괴 (Plasticity Collapse)'**라고 합니다.)

🛠️ 2. 해결책 1: "전문가 팀"을 꾸리다 (ScaleZero)

연구자들은 이 문제를 해결하기 위해 요리사의 방식을 완전히 바꿨습니다.

  • 새로운 방식 (ScaleZero): 이제 요리사는 혼자 모든 것을 하려 하지 않습니다. 대신 **전문가 팀 (Mixture-of-Experts, MoE)**을 꾸립니다.
    • 비유: 한 명의 요리사가 모든 재료를 섞는 게 아니라, 냉장고 문이 열리면 아이스크림 전문가가, 불이 켜지면 스테이크 전문가가 각각 나와서 자신의 일만 합니다.
    • 효과: 서로 다른 일을 하는 전문가들이 각자만의 공간에서 일하므로, 서로 방해하지 않습니다. 그래서 복잡한 스테이크도 잘 만들고, 간단한 아이스크림도 잘 만들 수 있게 됩니다.
    • 핵심 기술: 이 '전문가 팀' 시스템은 **MoE (Mixture-of-Experts)**라는 기술을 사용했습니다. 입력된 상황에 따라 가장 적합한 전문가만 골라서 일을 시키는 것입니다.

📈 3. 해결책 2: "필요할 때만 인력 추가" (DPS)

하지만 전문가 팀을 처음부터 모두 고용하면 비용이 너무 많이 듭니다. 모든 요리가 동시에 시작되는 것도 아닙니다.

  • 새로운 전략 (Dynamic Parameter Scaling, DPS):
    • 비유: 요리사가 처음에는 **기본 조리법 (베이스 모델)**만 배우며 모든 요리를 시도해 봅니다.
    • 진행:
      1. 아이스크림은 금방 잘하게 됩니다. → "이건 끝났으니, 이 부분의 인력은 줄이자." (학습 중단)
      2. 스테이크는 여전히 어렵습니다. → "이건 더 연습이 필요하네! 스테이크 전용 **보조 요리사 (LoRA 어댑터)**를 새로 고용하자!"
    • 효과: 잘하는 일은 더 이상 에너지를 쓰지 않고, 어려운 일에만 집중해서 인력과 시간을 투입합니다.
    • 결과: 같은 실력을 내더라도, 환경과 상호작용하는 횟수 (데이터 수집 비용) 를 약 28.5%나 줄일 수 있었습니다. 마치 "필요한 때에만 필요한 만큼만 투자하는 스마트한 경영"과 같습니다.

🏆 4. 실험 결과: "진짜 만능 선수"가 되다

연구팀은 이 새로운 방식 (ScaleZero) 을 다양한 게임과 환경에서 테스트했습니다.

  • 테스트 장소:
    • 아타리 게임 (Atari): 화면을 보고 조이스틱을 조작하는 26 가지 게임 (예: 펭구, 우주선 조종 등).
    • 로봇 제어 (DMC): 물리 법칙을 따르는 로봇 팔이나 다리를 움직이는 18 가지 작업.
    • 텍스트 어드벤처 (Jericho): 글자로 된 미로를 해결하는 게임.
  • 결과:
    • **하나의 모델 (ScaleZero)**이 각 게임마다 따로 훈련된 '전문가'들과 거의同等한 (혹은 더 좋은) 실력을 보여주었습니다.
    • 특히 기존 방식이 실패했던 복잡한 게임들에서도 뛰어난 성과를 냈습니다.
    • DPS 전략을 쓰면 더 적은 데이터로도 같은 실력을 낼 수 있었습니다.

💡 5. 요약: 왜 이 연구가 중요한가?

이 논문은 **"하나의 AI 가 모든 일을 동시에 배우는 것"**이 왜 어려운지, 그리고 어떻게 하면 **전문가 팀 (MoE)**과 **스마트한 인력 관리 (DPS)**를 통해 이를 해결할 수 있는지를 증명했습니다.

  • 기존의 문제: 모든 일을 한 번에 하려다 보니 뇌가 과부하가 걸려서 망가짐.
  • ScaleZero 의 해법:
    1. MoE: 상황에 따라 맞는 전문가만 불러서 일하게 함 (갈등 해결).
    2. DPS: 잘하는 일은 쉬게 하고, 어려운 일에만 추가 인력을 투입함 (효율성 극대화).

결국 이 기술은 **적은 비용으로 더 똑똑하고 다양한 일을 할 수 있는 '일반적인 AI (Generalist Agent)'**를 만드는 데 큰 발걸음이 될 것입니다. 마치 한 명의 천재가 아니라, 상황에 맞춰 최적의 전문가를 불러모으는 훌륭한 프로젝트 매니저를 만든 것과 같습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →