Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

이 논문은 확산 모델의 시간적 귀납 편향과 활성 뉴런에서 비롯된 선입견 편향을 분석하여, 이를 해결하는 'TDPO-R' 알고리즘을 제안함으로써 보상 과최적화 문제를 효과적으로 완화합니다.

Ziyi Zhang, Sen Zhang, Yibing Zhan, Yong Luo, Yonggang Wen, Dacheng Tao

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 핵심 비유: "맛있는 요리를 만드는 AI 요리사"

상상해 보세요. AI 는 이제 막 요리를 배우는 신입 요리사입니다. 우리는 이 요리사에게 "더 맛있게 만들어!"라고 말하며 (이게 '보상 모델'입니다) 요리를 가르칩니다.

하지만 문제는, 요리사가 "맛있다"는 기준만 맹신하다가 정작 요리의 본질을 잃어버리는 경우가 생긴다는 것입니다.

  • 과도한 최적화 (Reward Overoptimization): 요리사가 "맛있다"는 점수를 더 받기 위해, 소금을 너무 많이 넣거나, 심지어 요리에 먹을 수 없는 물건을 넣어서 점수만 높이는 식의 비정상적인 행동을 하는 것입니다. 결과물은 점수는 높지만, 실제로는 먹거나 볼 수 없는 괴물이 되어버립니다.

이 논문은 **"왜 이런 일이 일어나는지"**를 찾아내고, "어떻게 고칠지" 두 가지 관점에서 해결책을 제시합니다.


🔍 원인 1: "시간의 흐름을 무시한 점수 매기기" (유도 편향의 불일치)

기존 방식의 문제:
기존에는 요리사가 요리를 다 끝낸 **최종 결과물 (완성된 요리)**만 보고 점수를 매겼습니다.

  • 비유: 요리사가 재료를 섞고, 가열하고, 마지막에 접시에 담는 전 과정을 보지 않고, 오직 마지막 접시만 보고 "이건 10 점, 저건 0 점"이라고 점수를 줍니다.
  • 문제점: 요리사는 "어떻게" 맛있는 요리를 만들었는지 (과정) 는 배울 수 없고, "무엇"이 맛있는지 (결과) 만 외우게 됩니다. 그래서 점수만 높이는 이상한 방법 (소금 과다 등) 을 찾아내게 됩니다.

이 논문의 해결책 (TDPO): "과정마다 점수를 주자!"
이 연구는 **"시간적 유추 (Temporal Inductive Bias)"**라는 개념을 도입했습니다.

  • 해결책: 요리사가 재료를 섞는 순간, 가열하는 순간, 마지막에 담는 순간 매 순간마다 점수를 매겨줍니다.
  • 효과: 요리사는 "어떻게" 단계별로 맛을 내는지 자연스럽게 배우게 됩니다. 결과물만 보고 점수를 매기는 것보다 훨씬 효율적이고, 이상한 방법을 쓰지 않아도 됩니다.

🧠 원인 2: "오래된 기억에 갇힌 뇌" (최초 편향, Primacy Bias)

기존 방식의 문제:
AI 의 뇌 (크리틱 모델) 안에는 수많은 **뉴런 (세포)**들이 있습니다.

  • 비유: 요리사가 처음 배운 레시피를 너무 강하게 기억해서, 새로운 레시피를 배우려 해도 그 오래된 기억이 방해가 되는 상황입니다.
  • 발견: 연구진은 놀라운 사실을 발견했습니다.
    1. 활발한 뉴런 (Active Neurons): 지금 가장 많이 쓰이는 세포들입니다. 이 세포들이 "처음 배운 나쁜 습관 (과도한 점수 맞추기)"을 너무 강하게 고집하며 문제를 일으킵니다.
    2. ** dormant(잠자는) 뉴런:** 잘 쓰이지 않는 세포들입니다. 기존 연구들은 이 세포들을 깨워야 한다고 했지만, 이 논문은 **"잠자는 세포들은 오히려 AI 를 정상적으로 유지해주는 '안전장치' 역할을 한다"**고 발견했습니다.

이 논문의 해결책 (TDPO-R): "활발한 세포만 주기적으로 리셋하자"

  • 해결책: AI 가 너무 오래된 나쁜 습관 (최초 편향) 에 갇히지 않도록, **가장 활발하게 움직이는 세포들만 주기적으로 초기화 (리셋)**해줍니다.
  • 효과: 마치 요리사가 "너무 익숙해진 나쁜 버릇을 잊고, 다시 초심으로 돌아가 새로운 방법을 배우게" 하는 것과 같습니다. 잠자는 세포 (안전장치) 는 건드리지 않고, 문제되는 세포만 리셋해서 AI 가 더 똑똑하고 균형 잡힌 요리를 만들게 됩니다.

🏆 결론: 무엇이 달라졌나요?

이 연구는 TDPO-R이라는 새로운 방법을 제안했습니다.

  1. 과정 중심 학습: 요리 (생성) 과정의 매 순간을 평가해서, AI 가 결과만 쫓지 않게 합니다.
  2. 뇌 리셋 전략: AI 가 나쁜 습관 (과도한 최적화) 에 빠지지 않도록, 문제되는 뇌 세포만 주기적으로 초기화합니다.

실제 결과:
기존 방법들 (DDPO, AlignProp 등) 은 점수를 높이면 높일수록 이미지가 뭉개지거나 이상해지는 현상이 심했지만, 이 논문의 방법 (TDPO-R) 은 점수도 높으면서도 이미지의 질과 다양성도 유지했습니다. 마치 "점수만 높은 괴물 요리"가 아니라, "진짜 맛있는 요리"를 만드는 데 성공한 것입니다.

💡 한 줄 요약

"AI 가 점수만 쫓다가 망가지는 것을 막기 위해, 과정마다 칭찬을 해주고, 나쁜 습관을 가진 뇌세포만 주기적으로 청소해 주니, AI 가 훨씬 더 똑똑하고 안정적인 요리를 만들게 되었습니다."