Each language version is independently generated for its own context, not a direct translation.

🧩 모자이크 (MOSAIC): 서로 다른 언어를 쓰는 팀원들을 위한 '통역사'이자 '경기장'

이 논문은 2026 년 3 월에 발표된 것으로, 인공지능 (AI) 연구자들이 서로 완전히 다른 방식으로 생각하는 다양한 AI 들과 인간을 한 팀으로 묶어 비교하고 평가할 수 있는 새로운 플랫폼을 소개합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드리겠습니다.

1. 문제: "서로 다른 언어를 쓰는 팀원들"

지금까지 AI 연구는 크게 세 가지 부서가 따로 놀고 있었습니다.

RL (강화학습) 팀: 바둑이나 비디오 게임을 아주 빠르게 치는 '천재 프로게이머'입니다. 숫자와 행동을 즉각적으로 계산하지만, 말을 못 합니다.
LLM/VLM (대형 언어/시각 모델) 팀: 책을 읽고 그림을 해석하는 '지식인'입니다. 말과 글은 잘하지만, 실시간으로 빠르게 반응하는 게임 실력은 아직 부족합니다.
인간 팀: 우리 같은 '일반인'입니다.

기존의 문제점:
이들 세 그룹은 서로 다른 '경기장'과 '규칙'에서 뛰고 있었습니다. RL 팀은 숫자만 주고받고, LLM 팀은 텍스트만 주고받았죠. 그래서 "이 세 팀이 같은 경기에서 함께 뛰면 누가 더 잘할까?" 혹은 "인간과 AI 가 팀을 이루면 어떻게 될까?" 같은 질문을 던지기 어려웠습니다. 마치 축구 선수, 체스 선수, 그리고 피아니스트를 한 팀에 넣어 "누가 더 좋은 팀을 만드는가?"를 묻는 것과 비슷합니다.

2. 해결책: '모자이크 (MOSAIC)' 플랫폼

저자들은 이 문제를 해결하기 위해 모자이크라는 플랫폼을 만들었습니다. 모자이크는 서로 다른 조각 (다양한 AI) 을 하나의 아름다운 그림 (통합된 시스템) 으로 만드는 도구입니다.

🏗️ 핵심 기능 3 가지 (일상 비유)

1. "보이지 않는 통역사" (IPC 프로토콜)

비유: 각 팀원은 서로 다른 언어를 쓰지만, 모자이크는 그들 사이에 보이지 않는 통역사를 배치합니다.
설명: RL 팀은 숫자만 말하고, LLM 팀은 글만 쓰더라도 모자이크는 이들을 자동으로 번역해서 게임에 적용합니다. 원래 코드를 하나도 고치지 않고도 서로 다른 AI 를 바로 연결할 수 있습니다.

2. "모든 팀원을 위한 통일된 유니폼" (오퍼레이터 추상화)

비유: 축구, 농구, 배구 선수가 모두 같은 유니폼을 입고 같은 경기장에 들어가는 것과 같습니다.
설명: 어떤 AI 가 들어오든 (RL 이든, LLM 이든, 인간이든) 모자이크는 그들에게 **"이게 너의 역할이야"**라고 통일된 규칙을 줍니다. 그래서 연구자들은 복잡한 기술적 차이를 무시하고, 오직 "성능"에만 집중할 수 있습니다.

3. "동일한 조건에서의 공정한 경기" (크로스-패러다임 평가)

비유: 모든 선수가 같은 날씨, 같은 경기장, 같은 시작 시간에 뛰는 것입니다.
설명: 모자이크는 랜덤 시드 (랜덤 번호) 를 공유합니다. 즉, "오늘 비가 오니까 LLM 이 유리할까?" 같은 변명을 없애고, 오직 어떤 AI 가 더 똑똑한지를 순수하게 비교할 수 있습니다.

3. 이 플랫폼으로 무엇을 할 수 있나요?

🎮 시나리오 1: "혼합 팀" 만들기

상황: 2 대 2 축구 경기를 시킵니다.
팀 구성:
- 초록 팀: 1 명은 '프로게이머 AI(RL)', 1 명은 '지식인 AI(LLM, GPT-4o)'
- 파란 팀: 1 명은 '프로게이머 AI', 1 명은 '무작위 AI(랜덤)'
결과: 지식인 AI 가 프로게이머 AI 와 얼마나 잘 협력할 수 있는지, 혹은 서로 다른 사고방식이 팀워크를 망치는지 바로 확인할 수 있습니다.

👀 시나리오 2: "동시 관찰"

화면을 나누어 RL 팀이 보는 숫자 데이터, LLM 팀이 읽는 텍스트, 인간이 보는 화면을 동시에 보여줍니다.
"왜 LLM 이 여기서 실수를 했을까?"라고 연구자가 직접 눈으로 확인하며 분석할 수 있습니다.

4. 왜 이것이 중요한가요?

과거에는 "AI 가 게임을 잘하나요?"라고 물었을 때, 어떤 AI인지에 따라 답이 달랐습니다. 하지만 모자이크는 이제 다음과 같은 질문을 가능하게 합니다.

"게임에서 인간과 LLM이 팀을 이룰 때, RL AI보다 더 잘할까?"
"시각을 가진 AI(VLM) 가 텍스트만 보는 AI(LLM) 보다 전략을 더 잘 세울까?"
"서로 다른 사고방식을 가진 AI 들이 섞여 있을 때, 팀워크가 깨질까?"

이것은 마치 다양한 재능을 가진 예술가들이 한 무대에서 함께 공연하는 것을 연구하는 것과 같습니다. 모자이크는 그 무대를 제공하고, 조명과 마이크를 맞춰주어, 누구의 공연이 더 빛나는지 공정하게 평가할 수 있게 해줍니다.

📝 요약

**모자이크 (MOSAIC)**는 서로 다른 언어 (데이터 형식) 를 쓰는 강화학습 AI, 언어 AI, 시각 AI, 그리고 인간을 하나의 경기장에 모아, 동일한 규칙으로 함께 뛰게 하고 그 결과를 공정하게 비교할 수 있게 해주는 초대형 통합 플랫폼입니다.

이제 연구자들은 더 이상 "어떤 AI 가 더 좋은가?"가 아니라, **"서로 다른 AI 들이 함께 일할 때 어떤 일이 일어나는가?"**라는 더 깊고 흥미로운 질문을 던질 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

현재의 한계: 강화학습 (RL), 대규모 언어 모델 (LLM), 비전 - 언어 모델 (VLM) 은 각각 독립적으로 광범위하게 연구되어 왔습니다. Gymnasium 과 PettingZoo 와 같은 프레임워크가 환경 (Environment) 측면의 표준화를 이루었으나, 에이전트 (Agent) 측면은 여전히 파편화되어 있습니다.
- RL 에이전트는 텐서 관측치와 정수 행동을 기대합니다.
- LLM/VLM 에이전트는 텍스트 프롬프트와 텍스트 응답을 처리합니다.
- 인간 운영자는 인터랙티브한 GUI 가 필요합니다.
핵심 문제: 기존 인프라는 서로 다른 의사결정 패러다임 (RL, LLM, VLM, 인간) 을 가진 에이전트들을 동일한 환경 내에서 혼합 (Heterogeneous) 하여 배치하거나, 동일한 조건 (Shared Seeds) 하에서 공평하게 비교 평가할 수 있는 기능이 부재합니다.
연구 목표: 기존 Ad Hoc Teamwork (AHT) 연구가 동일한 관측 및 행동 표현을 가진 에이전트들을 가정했던 것과 달리, 본 논문은 완전히 다른 패러다임 ( $\pi_{RL}, \lambda_{LLM}, \psi_{VLM}, h_{human}$ ) 을 가진 에이전트들이 팀을 이루어 협력하거나 경쟁하는 복잡한 설정을 해결하기 위한 통합 플랫폼을 제안합니다.

2. 방법론 및 시스템 아키텍처 (Methodology)

MOSAIC 는 세 가지 계층 (Orchestration, Communication, Execution) 으로 구성된 3 계층 아키텍처를 따릅니다.

가. 아키텍처 구조

오케스트레이션 계층 (Orchestration Layer):
- Qt6 기반의 메인 프로세스가 제어 평면 (Control Plane) 역할을 수행합니다.
- 워크워커 (Worker) 를 격리된 서브프로세스 (os.setsid()) 로 생성 및 관리하며, 명령어 (reset, step, train) 를 라우팅하고 실시간 텔레메트리를 SQLite 기반 모델로 집계합니다.
- 알고리즘 로직은 GUI 에 직접 포함되지 않습니다.
워크워커 프로토콜 (Worker Protocol):
- 각 워크워커는 stdin/stdout 을 통한 경량 JSON 프로토콜로 메인 프로세스와 통신합니다.
- 명령어는 JSON 형식 (예: {"cmd":"reset", "seed":42}) 으로 전달되며, 응답은 ready, step, episode_end 등의 타입화된 JSON 으로 반환됩니다.
- 배치 모드에서는 JSONL 을 출력하고, Telemetry Proxy 가 이를 gRPC 스트림을 통해 데몬으로 전달합니다.
- IPC 기반 격리: 기존 프레임워크 (CleanRL, RLlib 등) 의 소스 코드 수정 없이 서브프로세스로 래핑하여 실행합니다.
오퍼레이터 추상화 (Operator Abstraction):
- 워크워커를 환경의 에이전트 슬롯에 매핑하는 '오퍼레이터' 개념을 도입합니다.
- OperatorController 인터페이스를 통해 RL, LLM, 인간, 랜덤 에이전트 등 모든 유형의 에이전트가 최소한의 통일된 인터페이스를 따르도록 합니다.
- select_action (단일 에이전트 모드) 및 select_actions (병렬 모드) 메서드를 제공합니다.

나. 평가 프레임워크

수동 모드 (Manual Mode): 공유된 시드 (Shared Seeds) 하에서 N 개의 오퍼레이터를 동기화 (Lock-step) 하여 진행합니다. GUI 를 통해 각 에이전트의 뷰포트를 색상으로 구분하여 시각적으로 비교할 수 있습니다.
스크립트 모드 (Script Mode): 선언형 Python 스크립트를 통해 자동화된 장기 평가를 수행하며, JSONL 텔레메트리를 생성하여 재현 가능한 실험을 가능하게 합니다.

3. 주요 기여 (Key Contributions)

IPC 기반 워크워커 프로토콜:
- 네이티브 및 서드파티 프레임워크 (CleanRL, XuanCe, RLlib, BALROG 등) 를 소스 코드 수정 없이 격리된 서브프로세스로 래핑하여 통합합니다.
- 버전 관리된 프로세스 간 통신 프로토콜을 통해 안정성을 보장합니다.
오퍼레이터 추상화 (Operator Abstraction):
- RL 정책, LLM, 인간 등 다양한 백엔드를 가진 에이전트들을 통일된 인터페이스로 매핑하여, 이질적인 에이전트들이 동일한 환경에서 협력하거나 경쟁할 수 있게 합니다.
결정론적 크로스 - 패러다임 평가 프레임워크:
- 수동 모드: 미세한 행동 차이를 시각적으로 분석할 수 있는 동시 실행 기능.
- 스크립트 모드: 재현 가능한 자동화 평가를 위한 선언형 스크립트 지원.
- 동일한 환경 인스턴스와 공유된 시드를 사용하여 RL, LLM, VLM, 인간 간의 공정한 비교를 가능하게 합니다.

4. 실험 구성 및 결과 (Results & Configurations)

본 논문은 구체적인 실험 결과 수치보다는 시스템의 유효성을 입증하는 실험 설계와 아키텍처 능력을 강조합니다.

지원 환경 및 에이전트:
- 26 개의 환경 패밀리 (MiniGrid, Soccer, Chess 등) 지원.
- 8 가지 워크워커 유형 (CleanRL, XuanCe, RLlib, BALROG, MOSAIC LLM, Human, Random 등) 지원.
- 혼합 팀 구성: 1 대 1 로 훈련된 RL 에이전트와 GPT-4o 기반 LLM 에이전트가 2 대 2 축구 경기에서 팀을 이루는 등 이질적인 팀 구성 실험이 가능합니다.
실험 설계 (Ablation Matrix):
- 대결형 (Adversarial): 동질적 팀 (RL vs RL, LLM vs LLM) 과 이질적 팀 (RL vs LLM, RL vs VLM) 의 성능 비교.
- 협력형 (Cooperative): 고립 훈련 (Solo-training) 된 RL 에이전트와 LLM/VLM 에이전트가 협력할 때의 시너지 효과 분석.
- 제어 변수: RL 에이전트는 파트너 없이 1 인 환경 (N=1) 에서 훈련된 후 고정 (Frozen) 되어 사용되므로, 파트너 불일치 (Partner Mismatch) 와 패러다임 차이 (Paradigm Difference) 를 명확히 분리하여 분석합니다.
소프트웨어 품질:
- 28 개 이상의 테스트 파일, CI/CD 통합, 135 페이지 이상의 문서화, MIT 라이선스 오픈소스 공개.

5. 의의 및 결론 (Significance)

표준화의 확장: Gymnasium 이 환경 측면을 표준화했다면, MOSAIC 는 에이전트 측면의 표준화를 이루어 RL, LLM, VLM, 인간 의사결정자를 통합하는 첫 번째 인프라를 제공합니다.
연구 패러다임의 전환: 기존 제로샷 조율 (Zero-Shot Coordination, ZSC) 이 동일한 관측/행동 공간을 가진 에이전트 간의 조율에 집중했다면, MOSAIC 는 질적으로 다른 의사결정 메커니즘을 가진 에이전트들 간의 협력과 경쟁을 연구할 수 있는 토대를 마련했습니다.
재현성과 투명성: 공유된 시드, 통일된 텔레메트리, 시각적 GUI 를 통해 다양한 패러다임 간의 비교 연구가 투명하고 재현 가능하게 수행될 수 있습니다.
향후 전망: 이 플랫폼은 RL, LLM, VLM, 인간 - AI 협업 (Human-in-the-loop) 커뮤니티 간의 교차 연구 (Cross-paradigm research) 를 촉진하며, 이질적 에이전트 팀의 최적 구성과 협력 전략에 대한 새로운 통찰을 제공할 것으로 기대됩니다.

요약: MOSAIC 는 서로 다른 AI 패러다임과 인간을 하나의 통합된 플랫폼에서 공평하게 비교하고 협력 시킬 수 있는 혁신적인 오픈소스 솔루션으로, 다중 에이전트 시스템 연구의 지평을 넓히는 중요한 도구입니다.

MOSAIC: A Unified Platform for Cross-Paradigm Comparison and Evaluation of Homogeneous and Heterogeneous Multi-Agent RL, LLM, VLM, and Human Decision-Makers

🧩 모자이크 (MOSAIC): 서로 다른 언어를 쓰는 팀원들을 위한 '통역사'이자 '경기장'

1. 문제: "서로 다른 언어를 쓰는 팀원들"

2. 해결책: '모자이크 (MOSAIC)' 플랫폼

🏗️ 핵심 기능 3 가지 (일상 비유)

3. 이 플랫폼으로 무엇을 할 수 있나요?

4. 왜 이것이 중요한가요?

📝 요약

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 및 시스템 아키텍처 (Methodology)

가. 아키텍처 구조

나. 평가 프레임워크

3. 주요 기여 (Key Contributions)

4. 실험 구성 및 결과 (Results & Configurations)

5. 의의 및 결론 (Significance)

유사한 논문

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank