OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이런 도구가 필요할까요? (문제 상황)

지금까지 인공지능 (AI) 이 문서를 찾아서 답변하는 능력 (RAG) 을 테스트할 때, 두 가지 큰 문제가 있었습니다.

실제 회사 데이터 (예: 엔론 사태): 너무 오래되었고, 법적 문제가 있으며, 중요한 건 **"진짜 무슨 일이 일어났는지 기록이 없다"**는 점입니다. AI 가 엉뚱한 답을 해도 "정답이 뭔지 모르니" 평가할 수 없습니다.
AI 가 만든 가짜 데이터: AI 가 Slack 메시지나 이메일을 만들어내면 내용은 그럴듯해 보이지만, 사실 관계가 엉망입니다.
- 비유: 한 AI 가 "오전 3 시에 서버가 멈췄다"고 Slack 에 쓰고, 또 다른 AI 가 "오전 9 시에 문제가 시작됐다"고 JIRA 티켓을 쓴다면? 시간이 뒤죽박죽 섞여버려서 AI 의 능력을 제대로 시험할 수 없게 됩니다.

OrgForge는 이 문제를 해결합니다. **"진실은 기계가 지키고, 글은 AI 가 쓴다"**는 원칙을 세운 것입니다.

2. OrgForge 는 어떻게 작동할까요? (핵심 원리)

이 시스템은 마치 엄격한 감독이 있는 영화 세트처럼 작동합니다.

🎬 시나리오: "진실의 버스" vs "배우들"

감독 (엔진): 컴퓨터 프로그램이 모든 '사실'을 통제합니다. "서버가 언제 멈췄는지", "누가 담당자인지", "누가 스트레스를 받는지"는 **변하지 않는 진실 (Ground Truth)**로 기록됩니다.
배우들 (AI 언어 모델): 실제 대본 (사실) 을 건네받으면, 그 안에서만 **자연스러운 대사 (Slack 메시지, 이메일)**를 작성합니다. 배우는 대본을 바꿀 수 없으니, "서버가 멈췄다"고 했으면 절대 "서버는 정상이다"라고 말하지 못합니다.

이렇게 하면 모든 문서가 서로 모순되지 않고, 시간 순서도 완벽하게 맞습니다.

3. 재미있는 비유들: 조직이 어떻게 움직이나요?

이 프로그램은 단순한 텍스트 생성기를 넘어, 살아있는 조직을 시뮬레이션합니다.

스트레스 전염병 (Stress Propagation):
- 비유: 팀의 핵심 인물 (중심성 높은 사람) 이 너무 바빠서 "화들썩"하면, 그 스트레스가 주변 동료들에게 감염됩니다. 마치 한 사람이 기침하면 주변 사람들이 기침을 하는 것처럼요.
- 효과: AI 가 "왜 팀원 A 가 갑자기 화났지?"라고 물을 때, 시스템은 "아, 팀장 B 가 스트레스를 받아서 A 에게 전염되었구나"라고 사실적으로 설명할 수 있습니다.
관계의 온도 (Edge Decay & Reinforcement):
- 비유: 두 사람이 자주 대화하면 관계가 따뜻해지고 (가중치 증가), 한 달 동안 말도 안 하면 관계가 시들해집니다 (감소).
- 효과: AI 가 "누구에게 이 문제를 물어봐야 할까?"라고 물으면, 시스템은 현재 가장 친한 동료 관계를 계산해서 가장 적합한 사람을 추천해 줍니다.
시간 여행 금지 (Actor-Local Clock):
- 비유: 각 직원은 자신의 손목시계를 가지고 있습니다. "회의가 끝나고 Slack 을 보냈다"면, Slack 메시지의 시간은 회의 시간보다 반드시 늦어야 합니다.
- 효과: 기존 AI 는 "Slack 을 먼저 쓰고, 그걸 보고 회의를 했다"는 식으로 시간 역행을 자주 했습니다. OrgForge 는 이런 시간 착오를 원천 차단합니다.
잡담과 방해요소 (Social Interruption):
- 비유: 실제 직장은 업무만 하는 게 아닙니다. "점심 뭐 먹지?" 같은 잡담도 많죠. OrgForge 는 이런 잡담도 만들어냅니다.
- 효과: AI 가 "중요한 업무 메시지"를 찾아낼 때, "점심 메뉴" 같은 **잡음 (Noise)**을 구별해 낼 수 있는지 테스트할 수 있습니다.

4. 이걸로 무엇을 할 수 있나요? (평가와 활용)

이렇게 만들어진 가짜 회사 데이터로 AI 를 시험합니다.

8 가지 유형의 시험 문제:
1. "서버가 언제 멈췄어?" (검색)
2. "이 티켓이 왜 생겼어?" (인과관계)
3. "그때 그 사람이 이 문서를 볼 수 있었어?" (시간적 맥락)
4. "고객 불만이 처리되지 않고 사라졌어?" (누락 탐지)
- 등등... 모든 문제의 정답은 시스템이 미리 알고 있습니다.
결과:
- 이 데이터를 이용해 기존 검색 기술 (키워드 검색) 과 최신 AI 검색 (의미 검색) 을 비교했습니다.
- 놀랍게도, 단순한 키워드 검색이 복잡한 인과관계 질문에서는 더 잘 작동하기도 했습니다. (AI 가 문맥을 이해하는 건 여전히 어렵다는 뜻입니다.)

5. 요약: 왜 이것이 중요한가요?

OrgForge 는 **"거짓말 없는 가짜 데이터"**를 만들어냅니다.

과거: AI 를 시험할 때, 정답을 알 수 없는 데이터나 모순투성이 데이터를 썼습니다.
OrgForge: "이건 정답이다"라고 100% 확실한 사실을 바탕으로 AI 를 시험합니다.

이것은 마치 운전 면허 시험을 볼 때, 실제 도로의 위험한 상황 (실제 데이터) 을 그대로 가져올 수 없으니, 안전하지만 현실적인 시뮬레이터를 만들어 운전 실력을 정확히 측정하는 것과 같습니다.

이 도구를 통해 우리는 AI 가 기업 환경에서 정말로 믿을 수 있는지, 그리고 어떤 부분에서 여전히 실패하는지 정확하게 파악할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

검색 증강 생성 (RAG) 시스템의 평가 인프라는 실제 기업 환경의 복잡성을 따라가지 못하고 있습니다. 기존 평가 데이터셋은 다음과 같은 한계를 가지고 있습니다:

실제 데이터의 부재: 엔론 (Enron) 코퍼스 같은 기존 데이터는 법적 민감성, 인구통계학적 편향, 그리고 구조화된 정답 (Ground Truth) 의 부재로 인해 신뢰할 수 있는 평가가 어렵습니다.
LLM 생성 데이터의 모순: 대규모 언어 모델 (LLM) 로만 생성된 합성 데이터는 사실적 일관성이 결여되어 있습니다. 예를 들어, 한 문서에서는 사고 발생 시간을 3 시로, 다른 문서에서는 9 시로 기록하는 등 문서 간 사실 (Fact) 이 상충될 수 있으며, 이를 감지하거나 방지할 메커니즘이 없습니다.
평가 요구사항 미충족: 효과적인 RAG 평가는 추적 가능한 정답, 시간적 구조, 다양한 아티팩트 간의 일관성, 조절 가능한 복잡성을 동시에 만족해야 하지만, 기존 자료는 이를 충족하지 못합니다.

2. 방법론 및 시스템 아키텍처 (Methodology)

OrgForge는 LLM 이 생성하는 텍스트의 '표면적 서술 (Prose)'과 시뮬레이션 엔진이 관리하는 '사실 (Fact)'을 엄격히 분리하는 다중 에이전트 시뮬레이션 프레임워크입니다.

A. 핵심 아키텍처: $M = (S, P, V, E)$

$S$ (State): 시스템 건강도, 팀 사기, 스트레스 지수, 오픈 티켓 등 모든 가변 상태를 관리하는 파이썬 모델.
$P$ (Planners): LLM 기반 부서 에이전트들. 상태와 이력을 관찰하여 당일 활동에 대한 구조화된 제안 (JSON) 을 생성하지만, 직접 사실을 수정할 수는 없음.
$V$ (Validator): 제안된 이벤트를 상태 ( $S$ ) 와 이벤트 로그 ( $E$ ) 에 비추어 검증하는 결정론적 함수. LLM 의 환각 (Hallucination) 을 차단하는 핵심 장치.
$E$ (Events): SimEvent 로그. 모든 중요한 행동의 단일 진실 공급원 (Ground Truth Bus). LLM 은 여기서 컨텍스트를 읽을 뿐 쓰지 않음.

B. 주요 기술적 메커니즘

그래프 동역학 (Graph Dynamics): 조직 행동을 LLM 없이 결정론적으로 제어하는 세 가지 메커니즘:
- 중간성 중심도 (Betweenness Centrality) 를 통한 스트레스 전파: 핵심 인물 (Key Players) 의 스트레스가 네트워크를 통해 주변 인에게 전파됨.
- 시간적 엣지 가중치 감쇠 (Edge-Weight Decay): 상호작용이 없을 때 관계 강도가 감소하고, 협업 시 강화됨.
- 다익스트라 (Dijkstra) 에스컬레이션 라우팅: 사고 발생 시, 관계 강도에 반비례하는 비용 그래프를 통해 최적의 에스컬레이션 경로를 계산.
프로포절 - 검증 루프 (Proposal-Validation Loop): LLM 이 제안한 이벤트가 검증기 (Validator) 를 통과해야만 실행됨. 이는 '유령 직원' 생성이나 시스템 상태 (예: P1 장애 중 파티 개최) 와 모순되는 이벤트를 차단.
캐주얼 타임스탬프 일관성 (Causal Timestamp Consistency):
- 기존 방식의 독립적 무작위 타임스탬프 할당 대신, **액터 로컬 시계 (Actor-local Clock)**를 도입.
- advance_actor 와 sync_and_tick 원리를 통해 인과 관계가 있는 아티팩트 (예: 알림 $\to$ 슬랙 반응 $\to$ 티켓 생성) 의 타임스탬프가 논리적으로 순차적으로 정렬되도록 보장.
다중 아티팩트 생성: 슬랙, JIRA, Confluence, Git PR, 이메일, 서버 로그 등 다양한 형식의 문서를 생성하며, 모두 공유된 SimEvent 로그에 추적 가능하게 연결됨.
외부 이메일 엔진: 벤더 경고, 고객 불만, HR 메일 등을 시뮬레이션하며, 확률적 드롭 (Probabilistic Drop) 을 통해 '답변이 없는' 상황 (Ground Truth Gap) 을 생성하여 RAG 의 결손 탐지 능력을 평가.

3. 주요 기여 (Key Contributions)

사실 제어와 서술 생성의 분리: LLM 환각이 합성 코퍼스를 오염시키는 것을 방지하는 아키텍처적 경계 정립.
형식화된 그래프 동역학: 조직 행동을 LLM 없이 수학적으로 정의된 메커니즘 (스트레스 전파, 엣지 감쇠, 라우팅) 으로 제어.
인과적 타임스탬프 보장: 문서 간 타임라인 불일치 문제를 해결하는 시계 시스템.
다양한 평가 파이프라인:
- 8 가지 유형의 질문 (검색, 인과, 시간적, 결손 탐지, 라우팅 등) 생성.
- 정답의 일부 점수 (Partial Credit) 를 부여하는 평가기 (Scorer).
- BM25 및 밀집 (Dense) 검색 베이스라인을 포함한 HuggingFace 호환 데이터셋 내보내기.
개방형 구현: MIT 라이선스 하에 오픈소스로 제공되며, 조직 구조와 시나리오를 구성 가능하게 설계됨.

4. 실험 결과 (Results)

실험 설정: 43 명의 인원을 가진 8 개 부서의 22 영업일 (약 30 일) 시뮬레이션 수행. 총 1,079 개의 문서와 83 개의 평가 질문 생성.
검색 베이스라인 성능:
- BM25: 전체적으로 MRR@10 0.283, Recall@10 0.466을 기록. 특히 인과 관계 (Causal) 질문 (MRR 0.54) 에서 우수한 성능을 보임.
- Dense Retrieval (Stella 1.5B): 전체 MRR@10 0.20 으로 BM25 보다 저조한 성능을 보임. 이는 구조화된 기업 아티팩트 어휘에 대한 일반 목적 임베딩 모델의 부적합성을 시사.
- 성공하지 못한 영역: 'PLAN'(계획) 및 'ESCALATION'(승급) 질문은 두 방법 모두 0 점. 이는 단순 키워드 매칭이나 임베딩으로는 다중 홉 추론이나 계획 문서의 주제 매칭이 어렵다는 것을 보여줌.
비용: 약 3 시간 4 분의 실행 시간, 약 285 달러의 LLM 호출 비용 (입력/출력 토큰 기준).

5. 의의 및 결론 (Significance)

검증 가능한 합성 데이터의 표준 제시: OrgForge 는 RAG 평가에 필요한 '알 수 있는 정답', '시간적 구조', '교차 아티팩트 일관성'을 모두 갖춘 최초의 합성 데이터셋 생성 프레임워크입니다.
LLM 환각 문제의 해결: LLM 이 사실을 생성하는 것이 아니라, 결정론적 엔진이 사실을 관리하고 LLM 은 이를 바탕으로 텍스트만 생성하게 함으로써 데이터의 내부 일관성을 수학적으로 보장합니다.
미래 RAG 평가의 방향성: 단순한 정보 검색을 넘어, 시간적 추론, 결손 탐지 (Gap Detection), 인과 관계 추론이 필요한 복잡한 기업 환경에서의 RAG 시스템 성능을 평가할 수 있는 기반을 마련했습니다.
오픈소스 생태계: 재현 가능한 시뮬레이션과 다양한 구성 옵션을 제공하여 연구자들이 조직 규모, 사고 빈도, 통신 패턴 등을 조절하여 다양한 시나리오를 테스트할 수 있게 합니다.

결론적으로, OrgForge 는 실제 기업 환경의 복잡성을 반영하면서도 정답이 명확한 합성 코퍼스를 생성하여, 차세대 RAG 시스템의 신뢰성과 성능을 평가하는 데 필수적인 인프라를 제공합니다.

OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora

1. 왜 이런 도구가 필요할까요? (문제 상황)

2. OrgForge 는 어떻게 작동할까요? (핵심 원리)

🎬 시나리오: "진실의 버스" vs "배우들"

3. 재미있는 비유들: 조직이 어떻게 움직이나요?

4. 이걸로 무엇을 할 수 있나요? (평가와 활용)

5. 요약: 왜 이것이 중요한가요?

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 및 시스템 아키텍처 (Methodology)

A. 핵심 아키텍처: M=(S,P,V,E)M = (S, P, V, E)M=(S,P,V,E)

B. 주요 기술적 메커니즘

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature

A. 핵심 아키텍처: $M = (S, P, V, E)$