Aligning Compound AI Systems via System-level DPO

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"복합 AI 시스템 (Compound AI Systems)"**을 더 똑똑하고 인간이 원하는 대로 작동하게 만드는 새로운 방법, SysDPO를 소개합니다.

쉽게 말해, **"여러 명의 AI 전문가가 팀을 이루어 일할 때, 각자 잘하는 것만 따로 가르치는 게 아니라 '팀 전체'의 성과를 기준으로 함께 훈련시키는 방법"**을 개발했다는 이야기입니다.

이 내용을 일상적인 비유로 설명해 드릴게요.

1. 문제 상황: "각자 잘하는 팀" vs "서로 통하지 않는 팀"

지금까지 우리는 AI 를 하나씩 따로 훈련시켰습니다. 하지만 요즘은 여러 AI 가 합쳐진 **'복합 시스템'**을 씁니다.

예시: 사용자가 "점점 더 화난 고양이 그림 3 장을 그려줘"라고 요청하면,
1. AI A (문장 작성자): "고양이 1 장은 차분하고, 2 장은 약간 화나고, 3 장은 미친 듯이 화난 모습으로 묘사해"라는 지시문을 만듭니다.
2. AI B (그림 그리기): 그 지시문을 보고 그림을 그립니다.

여기서 문제가 생깁니다.
문장 작성자 (A) 가 "화남"의 정도를 잘 설명했더라도, 그림 그리기 AI(B) 가 그걸 제대로 이해하지 못하면 결과가 엉망이 됩니다.

현실: A 는 "화남"을 잘 설명했는데, B 는 3 장 모두 똑같이 웃는 고양이만 그립니다.
원인: A 와 B 는 서로 다른 방식으로 작동하고, A 가 B 에게 주는 지시 (텍스트) 는 수학적으로 직접 연결되지 않아서 (미분 불가능), 두 AI 를 동시에 훈련시키기 매우 어렵습니다. 마치 영어만 하는 요리사와 프랑스어만 하는 식자재 상인이 서로 대화하며 요리를 하려 할 때, "약간 더 매운 것"을 요구해도 상인이 그걸 정확히 이해하지 못해 실패하는 것과 같습니다.

2. 해결책: SysDPO (시스템 전체를 한 팀으로 훈련시키기)

저자들은 이 문제를 해결하기 위해 SysDPO라는 방법을 제안합니다.

🧩 비유: "오케스트라 지휘자"

기존 방식은 바이올린 연주자 (AI A) 와 첼로 연주자 (AI B) 를 따로따로 연습시켰습니다. 하지만 SysDPO 는 **지휘자 (시스템 전체의 목표)**가 나서서 "우리 오케스트라 전체가 조화를 이루게 연주하자"고 훈련시킵니다.

이들은 AI 시스템을 ** Directed Acyclic Graph (DAG, 방향성 비순환 그래프)**라는 도형으로 그립니다.

입력 → 중간 결과 (문장) → 최종 결과 (그림)
이 연결고리를 통해 "최종 그림이 마음에 들지 않았다면, 그 원인이 문장 (중간 결과) 이 잘못되었을 수도 있고, 그림 그리는 AI 가 잘못 그렸을 수도 있다"는 것을 수학적으로 계산할 수 있게 됩니다.

3. 두 가지 훈련 방법 (상황에 따라 선택)

저자들은 두 가지 상황을 가정하여 두 가지 방법을 만들었습니다.

방법 1: SysDPO-Direct (모든 과정을 볼 수 있을 때)

상황: 중간에 만들어진 문장 (지시문) 을 우리가 직접 볼 수 있고, 그 문장과 최종 그림을 모두 평가할 수 있는 데이터가 있을 때.
비유: 요리사가 만든 **메뉴판 (문장)**과 **완성된 요리 (그림)**를 모두 보고 "메뉴판이 좋았지만 요리가 망쳤다" 혹은 "메뉴판이 애매해서 요리가 망쳤다"를 정확히 구분해서 가르치는 경우입니다.
효과: 가장 정확하고 강력한 훈련이 가능합니다.

방법 2: SysDPO-Sampling (중간 과정을 못 볼 때)

상황: 중간에 만들어진 문장을 볼 수 없고, 오직 "입력 (질문)"과 "최종 결과 (그림)"만 있을 때.
비유: 요리사가 만든 메뉴판은 못 보지만, 완성된 요리만 보고 "이 요리를 만들기 위해 어떤 메뉴판이 필요했을지" 여러 가지 시나리오를 상상해 가며 훈련하는 경우입니다.
기술: AI 가 "어떤 문장이 나왔을지" 여러 가지 버전을 빠르게 만들어보고 (샘플링), 그중에서 가장 좋은 조합을 찾아내어 전체 시스템을 훈련시킵니다.

4. 실험 결과: "함께 훈련하면 훨씬 잘한다"

저자들은 이 방법을 실제로 테스트했습니다.

고양이 그림 실험:
- 기존 방식 (각자 훈련): "점점 화나는 고양이"를 그릴 때, 3 장 중 2 장이 비슷하거나 엉뚱한 표정을 그렸습니다. (성공률 32%)
- SysDPO 적용: 문장 작성자와 그림 그리기 AI 가 서로의 역할을 이해하고 협력하게 되었습니다. 성공률이 **73%**까지 크게 향상되었습니다.
- 교훈: 그림 그리는 AI 만 훈련시키는 것보다, 문장 작성 AI 와 함께 훈련하는 것이 훨씬 효과적이었습니다.
질문 - 답변 팀 실험:
- 두 명의 AI 가 한 명은 초안을 쓰고, 다른 한 명이 다듬는 시스템을 훈련시켰습니다.
- 각자 따로 훈련시킨 것보다, **팀 전체의 목표 (최종 답변의 질)**를 기준으로 함께 훈련했을 때 훨씬 더 좋은 답변을 만들어냈습니다.

5. 결론: 왜 이 연구가 중요한가?

이 연구는 **"AI 가 혼자 일할 때는 잘해도, 여러 AI 가 합쳐지면 서로 통하지 않아 실패할 수 있다"**는 문제를 해결했습니다.

핵심 메시지: 복잡한 일을 시킬 때는 각 부품 (AI) 을 따로 잘게 다듬는 것보다, 부품들이 서로 어떻게 협력해야 최종 결과가 좋은지를 함께 가르쳐야 합니다.
미래: 이 기술은 의료, 교육, 복잡한 업무 자동화 등 여러 AI 가 협력해야 하는 분야에서 안전하고 똑똑한 시스템을 만드는 데 큰 역할을 할 것입니다.

한 줄 요약:

"혼자서는 잘하지만 함께 일하면 엉망이 되는 AI 팀들을, '팀워크'를 기준으로 함께 훈련시켜서 완벽한 협동 플레이를 하게 만든 혁신적인 방법입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

**복합 AI 시스템 (Compound AI Systems)**은 LLM(대규모 언어 모델), 파운데이션 모델, 외부 도구 등 여러 상호작용하는 구성 요소로 이루어진 시스템으로, 단일 모델보다 뛰어난 성능을 보입니다 (예: ChatGPT, RAG, 멀티 에이전트 시스템). 그러나 이러한 시스템을 실제 환경에 배포할 때 **인간의 선호도 (Human Preferences) 와 정렬 (Alignment)**하는 것은 다음과 같은 두 가지 주요 난제로 인해 기존 단일 모델 정렬 기법 (DPO, RLHF 등) 을 직접 적용하기 어렵습니다.

비미분 가능한 상호작용 (Non-differentiable Interactions): 구성 요소 간의 통신이 자연어나 특정 태스크 출력과 같은 비미분 가능한 채널을 통해 이루어져, 구성 요소 간 크레딧 할당 (Credit Assignment) 이 어렵고 엔드 - 투 - 엔드 (End-to-End) 그레디언트 기반 최적화가 불가능합니다.
비분해 가능한 선호도 (Non-decomposable Preferences): 시스템 전체의 선호도는 개별 구성 요소의 선호도로 단순히 분해될 수 없습니다. 구성 요소 간의 효과적인 조율 (Coordination) 이 필수적이지만, 개별적으로 정렬하는 방식으로는 이를 포착할 수 없습니다.
세부 기준 부재: 대부분의 정렬 벤치마크는 전체 시스템을 평가하도록 설계되어 있으며, 개별 하위 태스크에 대한 기준이 존재하지 않는 경우가 많습니다.

2. 제안 방법: SysDPO (Methodology)

저자들은 복합 AI 시스템을 **유방향 비순환 그래프 (DAG, Directed Acyclic Graph)**로 모델링하여 구성 요소 간의 상호작용과 데이터 흐름을 명시적으로 표현하고, 이를 기반으로 SysDPO (System-level Direct Preference Optimization) 프레임워크를 제안했습니다.

핵심 아이디어

DAG 모델링: 입력 ( $x$ ), 중간 출력 ( $y_i$ ), 최종 출력 ( $z_j$ ) 을 노드로, 데이터 흐름을 엣지로 표현합니다. 이를 통해 시스템의 결합 확률을 구성 요소별 확률의 곱으로 분해할 수 있습니다.
두 가지 변형 (Variants): 중간 출력의 관측 가능성에 따라 두 가지 접근법을 제시합니다.

SysDPO-Direct (중간 출력 관측 가능 시):
- 선호도 데이터셋에 중간 출력 ( $y$ ) 과 최종 출력 ( $z$ ) 이 모두 포함된 경우를 가정합니다.
- 시스템 전체의 생성 확률 $p(s|x)$ 를 구성 요소별 확률의 곱 ( $\prod p(y|x) \cdot \prod p(z|y)$ ) 으로 분해합니다.
- 기존 DPO 손실 함수를 시스템 전체 변수 집합 $s$ 에 대해 적용하여 엔드 - 투 - 엔드 최적화를 수행합니다.
- 확산 모델 적용: 확산 모델 (Diffusion Model) 의 확률 밀도 함수가 직접 계산 불가능한 경우, DDPM(Denoising Diffusion Probabilistic Models) 의 특성을 활용하여 손실 함수의 상한선 (Upper Bound) 을 유도하고 이를 최적화합니다.
SysDPO-Sampling (중간 출력 관측 불가능 시):
- 중간 출력이 관찰되지 않고 입력과 최종 출력만 있는 기존 선호도 데이터셋을 활용합니다.
- 전체 확률 $p(z|x)$ 를 계산하기 위해 모든 가능한 중간 출력 $y$ 에 대한 합 (Summation) 을 수행해야 하는데, 이는 계산적으로 불가능합니다.
- 해결책: 확률 분포에서 높은 확률을 가지는 소수의 대표적 샘플 ( $y^\alpha$ ) 만을 추출하여 합을 근사합니다.
- 다양성 있는 빔 서치 (Diverse Beam Search, DBS): 단순 몬테카를로 샘플링보다 효율적이고 다양한 중간 출력을 생성하기 위해 DBS 를 사용하여 손실 함수를 근사합니다. 이를 통해 그레디언트 기반 최적화가 가능해집니다.

3. 주요 기여 (Key Contributions)

프레임워크 제안: 복합 AI 시스템을 DAG 로 모델링하고, 시스템 수준의 선호도를 직접 최적화하는 SysDPO 프레임워크를 제안했습니다.
이론적 증명: 시스템 수준에서 ** $\beta$ -완벽 정렬 ( $\beta$ -perfect alignment)**이 달성됨을 수학적으로 증명했습니다. 이는 표준 DPO 의 정렬 보장을 복합 시스템으로 일반화한 것입니다.
실험적 검증: 두 가지 주요 응용 분야에서 SysDPO 의 유효성을 입증했습니다.
- LLM + 확산 모델: 텍스트를 캡션으로 변환하고 이미지를 생성하는 시스템.
- LLM 협업 시스템: 두 개의 LLM 이 협력하여 질문을 답변하는 시스템.

4. 실험 결과 (Results)

실험 1: LLM + 확산 모델 (이미지 생성)

과제: 사용자가 "점점 더 화난 고양이의 이미지 3 장"을 요청할 때, LLM 이 생성한 캡션과 확산 모델이 생성한 이미지가 논리적으로 일관된지 평가.
메트릭: 선호도 점수 (Preference Score), 순서 일관성 비율 (Order Consistency Ratio).
결과:
- 정렬 전 시스템: 순서 일관성 비율이 **32%**로 매우 낮음.
- 단일 구성 요소 학습: 언어 모델만 학습할 경우 65%, 확산 모델만 학습할 경우 38% 로, 언어 모델의 역할이 더 중요함을 보임.
- SysDPO-Direct (제안): **73%**의 순서 일관성 비율과 가장 높은 선호도 점수를 기록. 두 구성 요소를 함께 최적화했을 때 시스템 전체의 일관성이 크게 향상됨을 입증.

실험 2: 복합 LLM 협업 시스템 (2 단계 Q&A)

과제: 1 단계 LLM 이 중간 답변을 생성하고, 2 단계 LLM 이 이를 정제하여 최종 답변을 출력.
비교 대상: 프롬프트 엔지니어링만 적용된 시스템, 개별 DPO 로 정렬된 시스템 (Separate-DPO), SysDPO-Sampling.
결과:
- SysDPO-Sampling: 인간 선호도 기반 승리율 (WR-chosen) 이 **19.8%**로, 프롬프트 시스템 (12.8%) 대비 55% 상대적 향상.
- **Separate-DPO (16.6%)**보다 SysDPO-Sampling 이 더 높은 성능을 보임. 이는 시스템 전체의 선호도를 고려한 통합 학습이 개별 구성 요소의 독립적 학습보다 효과적임을 시사합니다.
- 학습 역학: SysDPO-Sampling 은 수렴 속도가 느리지만 최종 성능이 가장 높음.

5. 의의 및 결론 (Significance)

새로운 패러다임: 단일 모델 중심의 정렬에서 벗어나, 여러 구성 요소가 상호작용하는 복합 AI 시스템의 정렬을 위한 체계적인 방법론을 제시했습니다.
실용성: 중간 출력이 관찰되지 않는 현실적인 시나리오에서도 (SysDPO-Sampling) 적용 가능하며, 의료, 교육 등 복잡한 워크플로우가 필요한 분야에서 안전성과 사용성을 보장하는 데 기여할 수 있습니다.
미래 방향: 동적 라우팅, 피드백 루프, 비정적 구조를 가진 더 복잡한 시스템으로의 확장을 위한 기초를 마련했습니다.

이 논문은 복합 AI 시스템이 단순히 구성 요소를 나열하는 것을 넘어, 시스템 전체의 목표와 인간 선호도에 부합하도록 통합적으로 최적화되어야 함을 강조하며, 이를 위한 강력한 이론적 및 실증적 기반을 제공합니다.