SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning

이 논문은 기존 직접 선호 최적화 (DPO) 의 한계를 극복하고, 비용 효율적인 선호 쌍 구축 파이프라인과 참조 모델 불필요, 부정적 선호의 지배 방지, 언어 능력 보존 등을 특징으로 하는 'Synergistic Preference Optimization(SynPO)'을 제안하여 비디오 상세 캡셔닝 및 다양한 NLP 작업에서 성능과 학습 효율성을 동시에 향상시키는 방법을 제시합니다.

Jisheng Dang, Yizhou Zhang, Hao Ye, Teng Wang, Siming Chen, Huicheng Zheng, Yulan Guo, Jianhuang Lai, Bin Hu

게시일 2026-03-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: 왜 기존 AI 는 설명이 부족할까?

기존의 비디오 설명 AI 들은 두 가지 큰 문제를 겪고 있었습니다.

  • 문제 1: "잘못된 정보"와 "지루한 설명"

    • AI 가 비디오를 보면 "사람이 걷고 있다" 정도는 말하지만, "어떤 옷을 입고, 어떤 표정으로, 왜 그렇게 걷는지" 같은 디테일은 놓치거나, 아예 없는 장면을 지어내는 (할루시네이션) 경우가 많았습니다.
    • 비유: 마치 여행 가이드가 있는데, "저기 산이 있어요"라고만 하고, 산의 이름이나 특징은 모르고, 가끔은 산이 아닌 구름을 산이라고 말하는 가이드와 같습니다.
  • 문제 2: "선호도 학습 (DPO) 의 함정"

    • AI 를 가르칠 때, "좋은 설명 (A)"과 "나쁜 설명 (B)"을 보여주고 "A 를 더 좋아해"라고 가르치는 방법 (DPO) 이 있습니다. 하지만 이 방법은 AI 가 "나쁜 설명을 피하는 것"에만 집중하게 만들어, 정작 좋은 설명을 만드는 능력 (언어 능력) 을 잃게 만드는 부작용이 있었습니다.
    • 비유: 학생에게 "A 라는 답은 맞고 B 라는 답은 틀려"라고만 가르치면, 학생은 B 를 피하는 법만 배우게 됩니다. 결국 시험에서 B 를 피하긴 했지만, A 를 정답으로 채우기 위한 실제 지식이 부족해져서 점수가 떨어지는 꼴입니다.

2. 해결책 1: 데이터 만들기 (SynPO 의 첫 번째 무기)

AI 를 가르치기 위해선 "좋은 설명"과 "나쁜 설명" 쌍 (선호도 데이터) 이 필요합니다. 하지만 사람이 직접 모든 비디오를 보고 점수를 매기는 건 너무 비싸고 느립니다.

  • 해결책: AI 스스로가 스스로를 평가하게 했습니다.
    • 같은 비디오를 보고 AI 가 10 개의 다른 설명을 만들어냅니다.
    • 그중에서 사실과 가장 일치하는 것을 "좋은 설명 (Positive)"으로, 잘못된 것을 "나쁜 설명 (Negative)"으로 골라냅니다.
    • 이때, AI 가 스스로 만든 설명들을 비교해서 "어떤 게 더 일관성 있고 사실적인가?"를 판단하게 했습니다.
    • 비유: 요리 대회에서 심사위원이 따로 필요 없는 상황입니다. 요리사 (AI) 가 10 가지 요리를 만들고, 그중에서 가장 맛있게 보이는 요리를 스스로 골라 "이게 최고야, 저건 실패작이야"라고 스스로 평가하는 것입니다. 이렇게 하면 비용도 아끼고 데이터도 많이 만들 수 있습니다.

3. 해결책 2: SynPO (선호도 학습의 새로운 방식)

기존의 DPO 방식이 가진 "언어 능력 저하" 문제를 해결하기 위해 SynPO라는 새로운 학습 방법을 개발했습니다.

  • 핵심 아이디어: "나쁜 걸 피하는 것"과 "좋은 걸 만드는 것"을 동시에 해야 한다.
    • 기존 DPO: "나쁜 설명 (B) 을 피하라"는 신호가 너무 강해서, AI 가 B 를 피하느라 A 를 만드는 능력을 잊어버렸습니다.
    • SynPO: "나쁜 걸 피하는 것"과 "좋은 설명을 자연스럽게 만드는 것"을 동시에 점수화했습니다.
    • 비유:
      • 기존 DPO: "실수를 하지 마!"라고만 외치면, 학생이 실수를 안 하려고 너무 긴장해서 말을 못 하거나 어색해집니다.
      • SynPO: "실수는 하지 말되, 자연스럽게 잘 말해!"라고 가르칩니다. 실수를 피하는 점수도 주지만, 자연스러운 말투를 유지하는 점수도 함께 줘서 AI 가 말실수만 안 하는 게 아니라, 아주 유창하고 정확한 설명을 하도록 유도합니다.

4. 결과: 무엇이 달라졌나?

이 방법을 적용한 결과, AI 는 다음과 같이 변했습니다.

  1. 더 정확한 설명: "사람이 걷는다"가 아니라, "겨울 옷을 입고 눈길 위를 신나게 뛰어가는 사람"처럼 디테일이 살아났습니다.
  2. 더 자연스러운 말투: 문장이 어색하지 않고, 비디오의 흐름에 맞춰 생동감 있게 설명합니다.
  3. 빠른 학습: 별도의 복잡한 모델을 거치지 않아도 되어, 학습 속도가 20% 이상 빨라졌습니다.

한 줄 요약:

"기존 AI 가 '잘못된 것'만 피하려다 말을 잊어버리는 문제를 해결하고, '진짜 좋은 설명'을 자연스럽게 만들어내는 새로운 교육법 (SynPO) 을 개발했습니다."

이 기술은 앞으로 유튜브나 영상 콘텐츠에서, 사람이 직접 자막을 달지 않아도 영상의 모든 디테일을 잡아내어 생생하게 설명해주는 AI를 만드는 데 큰 역할을 할 것입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →