Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

Each language version is independently generated for its own context, not a direct translation.

🎬 비유: "한 명의 천재 작가와 그의 비밀 회의실"

기존의 AI(대형 언어 모델) 는 마치 혼자서 책 한 권을 쓰는 작가와 같습니다.

문제점: 작가는 머릿속에서 "이 장은 역사 이야기, 저 장은 과학 이야기"라고 생각할 수 있지만, 실제로는 한 번에 한 문장씩만 써야 합니다. (왼쪽에서 오른쪽으로만 진행)
기존 해결책: 사람들이 "일단 개요를 짜고, 역사 담당과 과학 담당에게 따로 일을 시키자"라고 합니다. 하지만 이렇게 하면 서로 연락이 안 됩니다. 역사 담당이 쓴 내용이 과학 담당의 내용과 모순되거나, 같은 내용을 중복해서 쓸 수 있습니다. (이를 논문에서는 '일관성 붕괴'라고 부릅니다.)

PDT 는 이 문제를 해결하기 위해 "작가 내부에 비밀 회의실"을 만듭니다.

1. 시작: "작업 계획서" (Planner-Seeded)

글을 쓰기 전에, AI 는 먼저 비밀 회의실에 들어갑니다.

여기서 AI 는 "이 글은 A, B, C 세 가지 주제로 나뉘겠다"라고 미리 정합니다.
이 계획은 **공유된 메모장 (잠재적 작업 공간)**에 적힙니다.
이제부터 AI 는 이 메모장을 보며 글을 씁니다.

2. 동시 작업: "여러 개의 펜을 동시에 쓰는 작가"

이제 AI 는 **여러 개의 손 (스트림)**을 동시에 움직입니다.

한 손은 역사 부분을, 다른 손은 과학 부분을 동시에 씁니다.
하지만 한 번에 한 문장씩만 쓰는 게 아니라, 조금씩 (블록 단위) 씁니다.

3. 비밀 회의실의 역할: "비밀 메모장 (Dynamic Notes Bus)"

여기가 가장 중요한 부분입니다.

각 손이 글을 조금씩 쓰면, 그 내용을 바로 공개하지 않고 '비밀 메모장'에 요약해서 적어둡니다.
다른 손들은 이 메모장을 **잠시 뒤 (지연 시간)**에 봅니다.
예시: 역사 손이 "1945 년 해방"이라고 썼다면, 과학 손은 그 내용을 보고 "아, 1945 년이니까 2 차대전 관련 과학 기술 이야기를 해야겠다"라고 생각하며 글을 이어갑니다.

4. 합의와 승인: "작가들의 미팅"

글을 계속 이어가기 전에, 모든 손이 잠시 멈춥니다.

질문: "지금까지 쓴 내용이 서로 모순되지 않나요? 누가 무엇을 썼는지 명확한가요?"
승인 (Agreement): 만약 모든 손이 "네, 지금 상태면 다음 단계도 안전해요"라고 합의하면, 그 부분의 글을 **최종 확정 (Commit)**하고 다음 단계로 넘어갑니다.
거부 (Rollback): 만약 "아니야, 과학 부분이 역사 부분과 충돌해!"라고 하면, 틀린 부분만 지우고 다시 씁니다.

💡 핵심 요약: 왜 이것이 특별한가요?

외부 조율이 필요 없습니다: 기존에는 사람이 여러 개의 창을 띄워놓고 AI 에게 지시해야 했지만, PDT 는 AI 스스로 내부적으로 팀워크를 합니다.
혼란이 없습니다: 서로 다른 부분이 동시에 쓰여도, '비밀 메모장'을 통해 서로의 내용을 실시간으로 확인하고 충돌을 막습니다.
기존 AI 를 그대로 씁니다: 이 기술은 거대한 AI 모델을 완전히 새로 만드는 게 아니라, 기존 AI 위에 '비밀 회의실'과 '합의 시스템'이라는 작은 부속품을 달아주는 것입니다. (마치 기존 자동차에 자율주행 센서를 추가하는 것과 비슷합니다.)

🚀 실제 활용 예시

이 기술이 적용되면, AI 가 다음과 같은 일을 훨씬 잘하게 됩니다:

복잡한 보고서 작성: "경제, 정치, 환경" 세 가지 주제를 동시에 분석하되, 서로 모순되지 않게 정리해 줍니다.
코드 작성: 프론트엔드 코드와 백엔드 코드를 동시에 작성하되, 데이터 구조가 일치하도록 맞춰줍니다.
창작물: 여러 캐릭터의 대사를 동시에 작성하되, 각 캐릭터의 성격과 상황 설정이 일관되게 유지되도록 합니다.

🎯 결론

이 논문은 **"AI 가 여러 일을 동시에 할 때, 서로 말도 안 되는 소리를 하지 않도록 AI 스스로를 통제하는 방법"**을 제시합니다. 마치 한 명의 천재 작가가 여러 개의 펜을 들고, 서로 대화하며 한 권의 완벽한 책을 동시에 써내는 마법과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 병렬 디코더 트랜스포머 (PDT)

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 은 종종 단일한 연속된 체인이 아닌, 부분적으로 독립적인 섹션, 하위 질문, 또는 논증으로 구성된 복잡한 프롬프트를 처리해야 합니다.

현재의 한계: 표준 자기회귀 (Autoregressive) 디코딩은 오직 하나의 왼쪽에서 오른쪽으로 흐르는 단일 출력 스트림만 노출합니다.
외부 오케스트레이션의 결함: 기존 방법론 (예: Skeleton-of-Thought 등) 은 프롬프트를 분할하여 여러 생성을 병렬로 실행하지만, 이는 모델 내부의 공유 상태를 제공하지 않습니다. 각 스트림은 형제 스트림이 이미 확립한 사실, 소유권, 또는 미해결 의존성을 알 수 없어 **일관성 붕괴 (Coherence Drift)**가 발생합니다. 즉, 병렬 분기들이 서로 모순되거나 중복되거나 불필요하게 구체화될 수 있습니다.
핵심 질문: 외부 조율 없이 단일 디코더가 어떻게 여러 생성 스트림을 내부적으로 조율하여 일관성을 유지하며 병렬로 발전시킬 수 있는가?

2. 방법론 (Methodology)

이 논문은 **병렬 디코더 트랜스포머 (PDT)**를 제안합니다. 이는 사전 훈련된 (Frozen) 디코더 트렁크에 경량화된 사이드카 (Sidecar) 모듈을 추가하여, 모델 내부에서 태스크 분해와 조율을 수행하는 아키텍처입니다.

주요 구성 요소 및 프로세스:

플래너 시드 (Planner-Seeded) 초기화:
- 토큰 생성 시작 전, 강제적인 프롬프트 타임 플래너가 실행됩니다.
- 플래너는 고정된 잠재적 계획 슬롯 (Latent Plan Slots) 을 예측하고, 이를 공유된 **스냅샷 0 (Snapshot 0)**으로 변환하여 '다이나믹 노트 버스 (Dynamic Notes Bus)'에 게시합니다.
- 이는 모든 병렬 스트림이 독립적인 빈 상태가 아닌, 공통된 잠재적 약속 구조에서 시작하도록 보장합니다.
다이나믹 노트 버스 (Dynamic Notes Bus):
- 모델의 공유 잠재 작업 공간 (Shared Latent Workspace) 으로 작동합니다.
- 텍스트가 아닌 임베딩 (Embeddings) 만을 사용하여 스트림 간 통신을 수행합니다.
- 각 스트림은 이 버스의 '가시 노트 창 (Visible Notes Window)'을 읽습니다.
동기화된 블록 방출 프로토콜 (Synchronized Block Emission Protocol):
- PDT 는 토큰 단위가 아닌 **블록 단위 (Block-level)**로 동기화됩니다.
- 각 스트림은 로컬 캐시와 가시 작업 공간에 기반하여 $\tau$ 개의 임시 (Provisional) 토큰 블록을 생성합니다.
- 블록 생성 후, 각 스트림은 자신이 확립한 내용과 미해결 의존성을 요약한 **잠재적 노트 (Latent Note)**를 버스에 작성합니다.
특수적 노트 조건부 (Speculative Note Conditioning, SNC):
- 토큰 생성 중 스트림은 가시 작업 공간에서 **크로스 어텐션 (Cross-Attention)**을 통해 잠재적 정보를 지속적으로 읽습니다.
- 이는 토큰 생성 시의 저대역폭 조건부 (Conditioning) 를 제공하지만, 실제 동기화 결정은 블록 경계에서만 이루어집니다.
소유권 인식 및 합의 게이트 (Ownership-Aware Commit & Agreement Gate):
- 커버리지 (Coverage) 헤드: 플래너가 할당한 계획 항목에 대한 소유권과 중복을 추적합니다.
- 합의 (Agreement) 헤드: 형제 스트림의 상태가 충분히 공유되었는지, 현재 블록을 커밋하고 계속 진행해도 안전한지 판단합니다.
- 결정 로직: 합의 점수가 임계값을 넘으면 블록이 커밋되고 노트가 공개됩니다. 그렇지 않으면 롤백 (Rollback) 이 발생하거나 스트림이 일시 정지됩니다.
파라미터 효율성:
- 기존 언어 모델의 가중치는 동결 (Frozen) 된 채 유지되며, 플래너, 버스, 제어 헤드 등은 경량 어댑터 (LoRA 등) 형태로 추가되어 학습됩니다.

3. 주요 기여 (Key Contributions)

플래너 시드 다중 스트림 생성 프로토콜: 토큰 생성 전 필수적인 플래너를 통해 공유된 잠재 작업 공간을 초기화하는 메커니즘을 제안했습니다.
임베딩 전용 조율 버스: 텍스트 교환 없이 임베딩만으로도 병렬 스트림이 동기화된 상태를 유지하며 계속할 수 있도록 하는 메커니즘입니다.
소유권 인식 커밋 제어: 커버리지, 소유권, 합의를 통해 임시 콘텐츠를 커밋하거나 보류/재생성할지 결정하여, 외부 텍스트 교환 없이도 조율된 병렬 생성을 가능하게 합니다.
동결 트렁크 구현: 기존 모델의 가중치를 변경하지 않고 사이드카 모듈을 통해 조율 기능을 추가하는 파라미터 효율적인 아키텍처를 제시했습니다.

4. 결과 및 평가 (Results & Evaluation)

실험 데이터: 이 논문은 아키텍처 제안서 (Preprint) 형태이므로, 구체적인 수치적 벤치마크 결과 (예: 정확도, 속도 향상 비율 등) 는 포함되어 있지 않습니다.
주장: 논문의 핵심은 추론 속도 향상 (Inference Speed) 이 아니라, 단일 디코더가 외부 오케스트레이션 없이도 내부적으로 병렬 스트림을 조율하여 일관성을 유지할 수 있는 가능성을 입증하는 데 있습니다.
예상 효과: 지식 구조화 응답, 역사적 개요, 다면적 분석 등 명시적인 하위 구조가 있는 프롬프트에서, 기존 외부 병렬화 방식보다 교차 스트림 모순을 줄이고 일관성을 높일 것으로 기대됩니다.

5. 의의 및 중요성 (Significance)

패러다임 전환: "여러 프롬프트를 동시에 실행하는 방법"에서 "단일 디코더가 어떻게 동기화된 다중 스트림 상태를 유지하며 생성하는가"로 질문의 초점을 이동시켰습니다.
모델 내부 조율: 외부 API 오케스트레이션이나 텍스트 기반 통신에 의존하지 않고, 모델 자체의 출력 인터페이스 위에서 조율 메커니즘을 구현함으로써 일관성 붕괴 (Coherence Drift) 문제를 근본적으로 해결할 수 있는 새로운 방향을 제시합니다.
확장성: 추론 시의 계산 효율성뿐만 아니라, 복잡한 태스크를 모델 내부에서 분해하고 조율하는 능력은 향후 더 복잡한 에이전트 시스템이나 다단계 추론 시스템의 기초가 될 수 있습니다.

6. 결론

Parallel Decoder Transformer (PDT) 는 고정된 언어 모델 위에 플래너 시드, 잠재적 작업 공간 (노트 버스), 그리고 합의 게이트를 결합하여, 모델이 스스로 태스크를 분해하고 병렬 스트림을 동기화할 수 있는 새로운 아키텍처를 제안합니다. 이는 외부 조율 없이도 모델이 내부적으로 일관된 병렬 생성을 수행할 수 있음을 보여주는 중요한 개념적 도약입니다.