SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: 왜 기존 AI 는 설명이 부족할까?

기존의 비디오 설명 AI 들은 두 가지 큰 문제를 겪고 있었습니다.

문제 1: "잘못된 정보"와 "지루한 설명"
- AI 가 비디오를 보면 "사람이 걷고 있다" 정도는 말하지만, "어떤 옷을 입고, 어떤 표정으로, 왜 그렇게 걷는지" 같은 디테일은 놓치거나, 아예 없는 장면을 지어내는 (할루시네이션) 경우가 많았습니다.
- 비유: 마치 여행 가이드가 있는데, "저기 산이 있어요"라고만 하고, 산의 이름이나 특징은 모르고, 가끔은 산이 아닌 구름을 산이라고 말하는 가이드와 같습니다.
문제 2: "선호도 학습 (DPO) 의 함정"
- AI 를 가르칠 때, "좋은 설명 (A)"과 "나쁜 설명 (B)"을 보여주고 "A 를 더 좋아해"라고 가르치는 방법 (DPO) 이 있습니다. 하지만 이 방법은 AI 가 "나쁜 설명을 피하는 것"에만 집중하게 만들어, 정작 좋은 설명을 만드는 능력 (언어 능력) 을 잃게 만드는 부작용이 있었습니다.
- 비유: 학생에게 "A 라는 답은 맞고 B 라는 답은 틀려"라고만 가르치면, 학생은 B 를 피하는 법만 배우게 됩니다. 결국 시험에서 B 를 피하긴 했지만, A 를 정답으로 채우기 위한 실제 지식이 부족해져서 점수가 떨어지는 꼴입니다.

2. 해결책 1: 데이터 만들기 (SynPO 의 첫 번째 무기)

AI 를 가르치기 위해선 "좋은 설명"과 "나쁜 설명" 쌍 (선호도 데이터) 이 필요합니다. 하지만 사람이 직접 모든 비디오를 보고 점수를 매기는 건 너무 비싸고 느립니다.

해결책: AI 스스로가 스스로를 평가하게 했습니다.
- 같은 비디오를 보고 AI 가 10 개의 다른 설명을 만들어냅니다.
- 그중에서 사실과 가장 일치하는 것을 "좋은 설명 (Positive)"으로, 잘못된 것을 "나쁜 설명 (Negative)"으로 골라냅니다.
- 이때, AI 가 스스로 만든 설명들을 비교해서 "어떤 게 더 일관성 있고 사실적인가?"를 판단하게 했습니다.
- 비유: 요리 대회에서 심사위원이 따로 필요 없는 상황입니다. 요리사 (AI) 가 10 가지 요리를 만들고, 그중에서 가장 맛있게 보이는 요리를 스스로 골라 "이게 최고야, 저건 실패작이야"라고 스스로 평가하는 것입니다. 이렇게 하면 비용도 아끼고 데이터도 많이 만들 수 있습니다.

3. 해결책 2: SynPO (선호도 학습의 새로운 방식)

기존의 DPO 방식이 가진 "언어 능력 저하" 문제를 해결하기 위해 SynPO라는 새로운 학습 방법을 개발했습니다.

핵심 아이디어: "나쁜 걸 피하는 것"과 "좋은 걸 만드는 것"을 동시에 해야 한다.
- 기존 DPO: "나쁜 설명 (B) 을 피하라"는 신호가 너무 강해서, AI 가 B 를 피하느라 A 를 만드는 능력을 잊어버렸습니다.
- SynPO: "나쁜 걸 피하는 것"과 "좋은 설명을 자연스럽게 만드는 것"을 동시에 점수화했습니다.
- 비유:
  - 기존 DPO: "실수를 하지 마!"라고만 외치면, 학생이 실수를 안 하려고 너무 긴장해서 말을 못 하거나 어색해집니다.
  - SynPO: "실수는 하지 말되, 자연스럽게 잘 말해!"라고 가르칩니다. 실수를 피하는 점수도 주지만, 자연스러운 말투를 유지하는 점수도 함께 줘서 AI 가 말실수만 안 하는 게 아니라, 아주 유창하고 정확한 설명을 하도록 유도합니다.

4. 결과: 무엇이 달라졌나?

이 방법을 적용한 결과, AI 는 다음과 같이 변했습니다.

더 정확한 설명: "사람이 걷는다"가 아니라, "겨울 옷을 입고 눈길 위를 신나게 뛰어가는 사람"처럼 디테일이 살아났습니다.
더 자연스러운 말투: 문장이 어색하지 않고, 비디오의 흐름에 맞춰 생동감 있게 설명합니다.
빠른 학습: 별도의 복잡한 모델을 거치지 않아도 되어, 학습 속도가 20% 이상 빨라졌습니다.

한 줄 요약:

"기존 AI 가 '잘못된 것'만 피하려다 말을 잊어버리는 문제를 해결하고, '진짜 좋은 설명'을 자연스럽게 만들어내는 새로운 교육법 (SynPO) 을 개발했습니다."

이 기술은 앞으로 유튜브나 영상 콘텐츠에서, 사람이 직접 자막을 달지 않아도 영상의 모든 디테일을 잡아내어 생생하게 설명해주는 AI를 만드는 데 큰 역할을 할 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

세밀한 비디오 캡셔닝 (Fine-grained Video Captioning) 의 한계: 기존 비디오 캡셔닝 방법들은 비디오의 세부적인 동작, 객체, 시간적 역동성 (temporal dynamics) 을 포착하는 데 어려움을 겪고 있습니다. 특히 할루시네이션 (허위 사실 생성) 이나 세부 정보의 부재가 주요 문제입니다.
기존 선호도 최적화 (DPO) 의 결함: 직접 선호도 최적화 (Direct Preference Optimization, DPO) 는 인간 선호도에 맞춰 모델을 정렬하는 데 효과적이지만, 비디오 캡셔닝에 적용할 때 두 가지 치명적인 문제가 발생합니다.
1. 고품질 데이터 부족: 선호도 학습에 필요한 고품질의 '비디오 - 텍스트' 정렬 쌍 (preference pairs) 이 부족하며, 기존 데이터셋은 캡션이 너무 짧거나 수동 주석에 의존합니다.
2. 최적화 목표의 왜곡 및 성능 저하: DPO 는 긍정적 (positive) 과 부정적 (negative) 보상 값이 동시에 감소하는 현상을 보이며, 모델이 '생성 능력'보다 '선호도 순위 매기기'에만 집중하게 되어 언어 능력이 저하되고 훈련이 불안정해지는 문제가 있습니다. 또한 참조 모델 (Reference Model) 이 필요하여 계산 비용이 높습니다.

2. 제안 방법론 (Methodology)

이 논문은 데이터 구축 파이프라인과 새로운 최적화 알고리즘 (SynPO) 을 제안합니다.

A. 고품질 선호도 데이터 구축 파이프라인

기존의 비용이 많이 드는 외부 VLM 점수화나 수동 주석을 대체하는 자동화 파이프라인을 제안합니다.

강화된 추론 (Enhanced Inference):
- 대조적 디코딩 (Contrastive Decoding): 할루시네이션을 줄이고 사실적 일관성을 높입니다.
- 자기 성찰 전략 (Self-Retrospective Strategy): 모델이 생성한 초기 캡션을 다시 입력받아 반복적으로 정제하여 세부 정보와 일관성을 향상시킵니다.
3 단계 평가 기준을 통한 선호도 쌍 생성:
- 하나의 비디오에 대해 VLM 으로 여러 후보 캡션을 생성한 후, LLM 을 활용하여 다음 3 가지 기준으로 점수를 매깁니다.
  - 사실성 (Factuality): 긴 비디오를 클립으로 분할하여 생성된 캡션과 전체 캡션 간의 사실적 일치도를 평가.
  - 지시 충실도 및 유창성 (Instruction Fidelity & Fluency): 프롬프트 준수 여부, 자연스러운 언어 사용, 객관성 평가.
  - 자기 일관성 (Self-consistency): 여러 샘플 간의 핵심 엔티티와 동작의 일관성을 평가.
- 점수가 가장 높은 것을 '긍정 선호 (Positive Preference)', 가장 낮은 것을 '부정 선호 (Negative Preference)'로 선정하여 데이터셋을 구성합니다.

B. SynPO (Synergistic Preference Optimization)

DPO 의 한계를 해결하고 생성 능력과 선호도 정렬을 동시에 최적화하는 새로운 알고리즘입니다.

핵심 아이디어:
1. 보상 계산 방식 재설계: DPO 의 로그 (log) 함수가 가진 미분 특성으로 인해 긍정/부정 보상이 동시에 감소하는 문제를 해결하기 위해, 지수 함수 (exp) 를 도입하여 긍정과 부정 선호도의 영향을 분리하고 부정적 선호도가 최적화를 지배하는 것을 방지합니다.
2. 언어 능력 명시적 보존: 손실 함수에 언어 생성 능력 (유창성 및 일관성) 을 직접 보존하는 항 ( $\beta \cdot S(y_w)$ ) 을 추가합니다. 이는 모델이 순위 매기기에만 치우쳐 언어 능력을 잃는 것을 막습니다.
3. 참조 모델 제거 (Reference-Free): 기존 DPO 와 달리 참조 모델 (Reference Model) 이 필요 없어 훈련 효율성을 약 20% 향상시킵니다.

3. 주요 기여 (Key Contributions)

자동화된 고품질 데이터 파이프라인: VLM 의 내재적 자기 일관성과 세부 묘사 능력을 활용하여, 외부 모델이나 수동 주석 없이도 세밀한 비디오 캡셔닝을 위한 고품질 선호도 데이터를 효율적으로 생성합니다.
SynPO 알고리즘 제안: DPO 의 이론적 결함 (최적화 목표 이탈, 부정적 선호도 지배) 을 해결하고, 생성 품질을 유지하면서 선호도 정렬을 수행하는 새로운 최적화 방법을 제시합니다.
광범위한 실험 검증: 비디오 캡셔닝 벤치마크 (VDC, VDD, VATEX 등) 와 일반적인 NLP 작업 (AlpacaEval, MT-Bench, Open LLM Leaderboard) 에서 기존 DPO 및 그 변형 (DPOP, IPO, SimPO 등) 보다 우월한 성능을 입증했습니다.

4. 실험 결과 (Results)

비디오 캡셔닝 성능:
- 다양한 모델 (AuroraCap, LLaVA-1.6, InternVL-2) 에서 SynPO 는 SFT 및 기존 DPO 변형들보다 VDC, VDD, VATEX, MSR-VTT 등 모든 벤치마크에서 일관되게 높은 점수를 기록했습니다.
- 특히 VDC 벤치마크에서 기존 방법 대비 20% 이상의 훈련 효율성 향상과 함께 성능이 크게 개선되었습니다.
NLP 및 일반 언어 능력:
- Llama3-8B 와 Mistral-7B 를 대상으로 한 실험에서 SynPO 는 AlpacaEval2, MT-Bench 및 Huggingface Open LLM Leaderboard (MMLU-PRO, GSM8K 등) 에서 최고 수준의 성능을 보여주었습니다.
- 이는 SynPO 가 비디오 특화 작업뿐만 아니라 일반적인 언어 이해 및 생성 능력도 동시에 향상시킨다는 것을 의미합니다.
학습 안정성:
- DPO 는 훈련 후기 단계에서 언어 능력이 저하되는 경향을 보인 반면, SynPO 는 긍정/부정 보상의 균형을 유지하며 안정적인 학습 곡선을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 비디오 상세 캡셔닝 분야에서 데이터 부족과 최적화 알고리즘의 한계를 동시에 해결하는 통합적인 접근법을 제시했습니다.

실용성: 비용 효율적인 데이터 생성 파이프라인을 통해 대규모 고품질 선호도 데이터 구축의 장벽을 낮췄습니다.
이론적 기여: DPO 의 근본적인 한계를 분석하고, 생성 모델이 '순위 매기기'가 아닌 '고품질 생성'을 유지하도록 유도하는 새로운 최적화 프레임워크 (SynPO) 를 제안했습니다.
범용성: 비디오 캡셔닝뿐만 아니라 일반적인 언어 모델 정렬 (Alignment) 작업에서도 뛰어난 성능을 입증하여, 멀티모달 및 텍스트 기반 모델 학습에 폭넓게 적용 가능한 방법론임을 보여주었습니다.

결론적으로, SynPO 는 비디오의 미세한 역동성을 포착하면서도 언어의 유창성과 사실성을 유지하는 차세대 비디오 캡셔닝 및 선호도 최적화 기술의 새로운 기준을 제시합니다.