FactorSmith: Agentic Simulation Generation via Markov Decision Process Decomposition with Planner-Designer-Critic Refinement

FactorSmith 는 자연어 명세로부터 실행 가능한 게임 시뮬레이션을 생성하기 위해, 상태 변수를 최소화하는 팩터링된 POMDP 분해와 계획가 - 설계자 - 비평가로 구성된 계층적 에이전트 워크플로우를 결합하여 컨텍스트 제한을 해결하고 코드 품질을 반복적으로 개선하는 프레임워크를 제안합니다.

Ali Shamsaddinlou, Morteza NourelahiAlamdari

게시일 2026-03-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"FactorSmith"**라는 새로운 도구를 소개합니다. 이 도구의 핵심 역할은 사람이 쓴 자연어 설명 (예: "공이 떨어지는 게임을 만들어줘") 을 받아서, 바로 실행 가능한 컴퓨터 게임 코드로 바꿔주는 것입니다.

기존의 인공지능 (LLM) 은 코드가 너무 길고 복잡해지면 헛소리를 하거나 (할루시네이션), 중요한 부분을 놓치는 문제가 있었습니다. FactorSmith 는 이 문제를 해결하기 위해 두 가지 똑똑한 전략을 섞어서 사용합니다.

이걸 이해하기 쉽게 거대한 성을 짓는 건축 프로젝트에 비유해 볼까요?


1. 기존 방식의 문제점: "한 번에 다 짓기"

예전에는 건축가 (AI) 에게 "성 전체를 그려줘"라고 말하면, 그는 한 번에 모든 벽, 지붕, 문, 창문을 다 그리려고 했습니다. 하지만 성이 너무 크면 건축가는 머리가 복잡해져서:

  • "벽돌이 없는데 벽을 짓자"라고 헛소리를 하거나,
  • "지붕은 2 층에 있어야지"라고 실수를 하거나,
  • "아까 만든 문은 어디 갔지?"라고 잊어버립니다.

2. FactorSmith 의 첫 번째 전략: "작은 블록으로 나누기" (팩터 POMDP 분해)

FactorSmith 는 "한 번에 다 짓지 마!"라고 말합니다. 대신 성을 **작은 블록 (모듈)**으로 쪼개서 짓게 합니다.

  • 전략: "먼저 1 층 바닥만 짓고, 그다음 2 층 벽만 짓고, 그다음 지붕만 짓자."
  • 효과: 건축가 (AI) 는 지금 짓고 있는 '1 층 바닥'에만 집중하면 됩니다. 성 전체의 복잡한 구조를 다 기억할 필요가 없으니, 실수가 훨씬 줄어듭니다.
  • 비유: 거대한 퍼즐을 한 번에 맞추려 하지 않고, 작은 조각 하나씩만 집중해서 맞추는 것과 같습니다.

3. FactorSmith 의 두 번째 전략: "세 명의 전문가 팀" (플래너 - 디자이너 - 비평가)

작은 블록으로 나누는 것만으로는 부족합니다. 작은 블록을 지을 때도 실수가 날 수 있으니까요. 그래서 FactorSmith 는 작업할 때마다 세 명의 전문가 팀을 투입합니다.

  1. 디자이너 (Designer): "자, 이제 1 층 바닥을 어떻게 지을지 아이디어를 내고 코드를 짭니다."
  2. 비평가 (Critic): "잠깐! 이 바닥은 너무 약해. 그리고 문이 없잖아? 점수를 매겨보자. (예: 완성도 6 점, 안전성 4 점)"
    • 중요한 점: 비평가는 단순히 "잘못됐어"라고만 하지 않고, 구체적인 점수와 피드백을 줍니다.
  3. 플래너 (Planner): "음, 점수가 6 점이라서 아직 부족하네. 디자이너야, 비평가의 말을 듣고 다시 고쳐봐. 만약 고친 게 더 나빠지면, 아까의 상태로 되돌려 (롤백)!"

이 세 사람은 수십 번을 오가며 "고쳐라 -> 평가하라 -> 더 고쳐라"를 반복합니다. 점수가 오를 때까지 멈추지 않고, 실수가 발견되면 바로 이전의 안전한 상태로 되돌립니다.


4. 두 전략의 만남: "FactorSmith"의 마법

이제 이 두 가지가 만나면 어떤 일이 일어날까요?

  • 작은 블록 (분해) 덕분에 AI 는 집중할 범위가 좁아졌습니다. (전체 성이 아니라 1 층 바닥만 봄)
  • 세 명의 팀 (에이전트) 덕분에 그 좁은 범위에서도 최고의 품질을 뽑아냅니다. (디자이너가 실수하면 비평가가 잡아주고, 플래너가 되돌려줌)

이게 바로 FactorSmith 의 핵심입니다. "작게 나누고, 꼼꼼하게 다듬는다."

5. 실험 결과: 실제로 효과가 있을까?

연구진은 이 방식을 8 가지 다른 2D 게임 (플래피 버드, 뱀 게임 등) 을 만들어보며 테스트했습니다.

  • 결과: 기존 방식들보다 게임이 더 잘 작동했고, 코드가 더 깔끔했으며, 실수가 훨씬 적었습니다.
  • 특히 게임의 규칙이 복잡할수록 FactorSmith 의 효과가 컸습니다. (복잡한 게임일수록 AI 가 혼란스러워하기 쉽기 때문입니다.)

요약

FactorSmith 는 거대한 코딩 작업을 작은 조각으로 나누어 관리하고, 각 조각마다 디자이너, 비평가, 감독이 팀을 이루어 꼼꼼히 검토하는 방식으로, 인공지능이 자연어로 게임을 만들 때 겪는 실수를 획기적으로 줄여주는 혁신적인 방법입니다.

마치 거대한 성을 지을 때, 한 명의 거인이 무작정 짓는 게 아니라, 작은 팀이 하나씩 블록을 쌓고 전문가들이 하나하나 검수하며 완성해 나가는 방식이라고 생각하시면 됩니다.