Aligning Compound AI Systems via System-level DPO

이 논문은 비미분 가능한 구성 요소 간 상호작용과 시스템 수준의 선호도 정렬의 어려움을 해결하기 위해, 컴파운드 AI 시스템을 방향성 비순환 그래프 (DAG) 로 모델링하고 직접 선호도 최적화 (DPO) 를 확장한 새로운 프레임워크인 'SysDPO'를 제안하여 시스템 전체의 인간 선호도 정렬을 가능하게 합니다.

Xiangwen Wang, Yibo Jacky Zhang, Zhoujie Ding, Katherine Tsai, Haolun Wu, Sanmi Koyejo

게시일 Mon, 09 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"복합 AI 시스템 (Compound AI Systems)"**을 더 똑똑하고 인간이 원하는 대로 작동하게 만드는 새로운 방법, SysDPO를 소개합니다.

쉽게 말해, **"여러 명의 AI 전문가가 팀을 이루어 일할 때, 각자 잘하는 것만 따로 가르치는 게 아니라 '팀 전체'의 성과를 기준으로 함께 훈련시키는 방법"**을 개발했다는 이야기입니다.

이 내용을 일상적인 비유로 설명해 드릴게요.


1. 문제 상황: "각자 잘하는 팀" vs "서로 통하지 않는 팀"

지금까지 우리는 AI 를 하나씩 따로 훈련시켰습니다. 하지만 요즘은 여러 AI 가 합쳐진 **'복합 시스템'**을 씁니다.

  • 예시: 사용자가 "점점 더 화난 고양이 그림 3 장을 그려줘"라고 요청하면,
    1. AI A (문장 작성자): "고양이 1 장은 차분하고, 2 장은 약간 화나고, 3 장은 미친 듯이 화난 모습으로 묘사해"라는 지시문을 만듭니다.
    2. AI B (그림 그리기): 그 지시문을 보고 그림을 그립니다.

여기서 문제가 생깁니다.
문장 작성자 (A) 가 "화남"의 정도를 잘 설명했더라도, 그림 그리기 AI(B) 가 그걸 제대로 이해하지 못하면 결과가 엉망이 됩니다.

  • 현실: A 는 "화남"을 잘 설명했는데, B 는 3 장 모두 똑같이 웃는 고양이만 그립니다.
  • 원인: A 와 B 는 서로 다른 방식으로 작동하고, A 가 B 에게 주는 지시 (텍스트) 는 수학적으로 직접 연결되지 않아서 (미분 불가능), 두 AI 를 동시에 훈련시키기 매우 어렵습니다. 마치 영어만 하는 요리사프랑스어만 하는 식자재 상인이 서로 대화하며 요리를 하려 할 때, "약간 더 매운 것"을 요구해도 상인이 그걸 정확히 이해하지 못해 실패하는 것과 같습니다.

2. 해결책: SysDPO (시스템 전체를 한 팀으로 훈련시키기)

저자들은 이 문제를 해결하기 위해 SysDPO라는 방법을 제안합니다.

🧩 비유: "오케스트라 지휘자"

기존 방식은 바이올린 연주자 (AI A) 와 첼로 연주자 (AI B) 를 따로따로 연습시켰습니다. 하지만 SysDPO 는 **지휘자 (시스템 전체의 목표)**가 나서서 "우리 오케스트라 전체가 조화를 이루게 연주하자"고 훈련시킵니다.

이들은 AI 시스템을 ** Directed Acyclic Graph (DAG, 방향성 비순환 그래프)**라는 도형으로 그립니다.

  • 입력중간 결과 (문장)최종 결과 (그림)
  • 이 연결고리를 통해 "최종 그림이 마음에 들지 않았다면, 그 원인이 문장 (중간 결과) 이 잘못되었을 수도 있고, 그림 그리는 AI 가 잘못 그렸을 수도 있다"는 것을 수학적으로 계산할 수 있게 됩니다.

3. 두 가지 훈련 방법 (상황에 따라 선택)

저자들은 두 가지 상황을 가정하여 두 가지 방법을 만들었습니다.

방법 1: SysDPO-Direct (모든 과정을 볼 수 있을 때)

  • 상황: 중간에 만들어진 문장 (지시문) 을 우리가 직접 볼 수 있고, 그 문장과 최종 그림을 모두 평가할 수 있는 데이터가 있을 때.
  • 비유: 요리사가 만든 **메뉴판 (문장)**과 **완성된 요리 (그림)**를 모두 보고 "메뉴판이 좋았지만 요리가 망쳤다" 혹은 "메뉴판이 애매해서 요리가 망쳤다"를 정확히 구분해서 가르치는 경우입니다.
  • 효과: 가장 정확하고 강력한 훈련이 가능합니다.

방법 2: SysDPO-Sampling (중간 과정을 못 볼 때)

  • 상황: 중간에 만들어진 문장을 볼 수 없고, 오직 "입력 (질문)"과 "최종 결과 (그림)"만 있을 때.
  • 비유: 요리사가 만든 메뉴판은 못 보지만, 완성된 요리만 보고 "이 요리를 만들기 위해 어떤 메뉴판이 필요했을지" 여러 가지 시나리오를 상상해 가며 훈련하는 경우입니다.
  • 기술: AI 가 "어떤 문장이 나왔을지" 여러 가지 버전을 빠르게 만들어보고 (샘플링), 그중에서 가장 좋은 조합을 찾아내어 전체 시스템을 훈련시킵니다.

4. 실험 결과: "함께 훈련하면 훨씬 잘한다"

저자들은 이 방법을 실제로 테스트했습니다.

  1. 고양이 그림 실험:

    • 기존 방식 (각자 훈련): "점점 화나는 고양이"를 그릴 때, 3 장 중 2 장이 비슷하거나 엉뚱한 표정을 그렸습니다. (성공률 32%)
    • SysDPO 적용: 문장 작성자와 그림 그리기 AI 가 서로의 역할을 이해하고 협력하게 되었습니다. 성공률이 **73%**까지 크게 향상되었습니다.
    • 교훈: 그림 그리는 AI 만 훈련시키는 것보다, 문장 작성 AI 와 함께 훈련하는 것이 훨씬 효과적이었습니다.
  2. 질문 - 답변 팀 실험:

    • 두 명의 AI 가 한 명은 초안을 쓰고, 다른 한 명이 다듬는 시스템을 훈련시켰습니다.
    • 각자 따로 훈련시킨 것보다, **팀 전체의 목표 (최종 답변의 질)**를 기준으로 함께 훈련했을 때 훨씬 더 좋은 답변을 만들어냈습니다.

5. 결론: 왜 이 연구가 중요한가?

이 연구는 **"AI 가 혼자 일할 때는 잘해도, 여러 AI 가 합쳐지면 서로 통하지 않아 실패할 수 있다"**는 문제를 해결했습니다.

  • 핵심 메시지: 복잡한 일을 시킬 때는 각 부품 (AI) 을 따로 잘게 다듬는 것보다, 부품들이 서로 어떻게 협력해야 최종 결과가 좋은지를 함께 가르쳐야 합니다.
  • 미래: 이 기술은 의료, 교육, 복잡한 업무 자동화 등 여러 AI 가 협력해야 하는 분야에서 안전하고 똑똑한 시스템을 만드는 데 큰 역할을 할 것입니다.

한 줄 요약:

"혼자서는 잘하지만 함께 일하면 엉망이 되는 AI 팀들을, '팀워크'를 기준으로 함께 훈련시켜서 완벽한 협동 플레이를 하게 만든 혁신적인 방법입니다."