Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

이 논문은 기존 GRPO 의 단일 스칼라 보상 한계를 극복하고, 사전 학습된 비전 백본을 활용해 공간적·시간적 구조를 반영한 픽셀 단위 이득 맵을 생성함으로써 시각 생성 모델의 정밀한 정렬과 일반화 성능을 향상시키는 '시각적 선호 정책 최적화 (ViPO)'를 제안합니다.

Ziqi Ni, Yuanzhi Liang, Rui Li, Yi Zhou, Haibin Huang, Chi Zhang, Xuelong Li

게시일 2026-02-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "모든 것을 똑같이 혼내거나 칭찬하는 선생님"

지금까지 AI 그림을 가르칠 때 (강화 학습), 우리는 그림 한 장 전체에 대해 하나의 점수만 매겼습니다.

  • 비유: 학생이 그림을 그렸는데, 선생님이 "이 그림은 80 점이야!"라고 말하며 화면 전체에 똑같은 점수를 붙인다고 상상해 보세요.
  • 문제: 그림 속에는 '잘 그린 얼굴'도 있고, '망친 배경'도 있을 수 있습니다. 그런데 점수가 전체에 똑같이 적용되면, AI 는 "아, 얼굴을 고쳐야 하나? 아니면 배경을 고쳐야 하나?"를 구분하지 못합니다. 결과적으로 잘못된 부분만 고쳐야 하는데, 엉뚱한 부분까지 수정하거나, 중요한 디테일을 놓치는 경우가 생깁니다.

2. 해결책: "세부 사항을 잘 아는 '시각적 선호도' 지도"

이 논문에서 제안한 ViPO는 이 문제를 해결하기 위해 **"어떤 부분이 중요한지 알려주는 지도"**를 만들어냅니다.

  • 비유: 이제 선생님은 그림 한 장 전체에 점수를 주는 대신, 화면 속 각 부분마다 다른 점수를 매깁니다.
    • "주인공의 눈은 100 점! (잘 그렸으니 더 잘해)"
    • "배경의 나무는 50 점! (조금 어색하니까 고쳐야 해)"
    • "하늘은 80 점! (그대로 유지)"
  • 어떻게 하나요? AI 는 이미 훈련된 '눈' (시각 모델) 을 통해 그림을 보고, **"사람이 가장 주목할 만한 부분 (주인공, 중요한 사물)"**과 **"그저 배경일 뿐인 부분"**을 자동으로 구별합니다. 이를 **PSM(지각 구조화 모듈)**이라고 부릅니다.

3. 작동 원리: "집중력을 필요한 곳에 쏟는 훈련"

이제 AI 는 이 '지도'를 보고 학습합니다.

  • 기존 방식 (GRPO): "전체 그림이 부족해. 전체를 다시 그려봐!"라고 말하며 전체적인 수정을 강요합니다.
  • 새로운 방식 (ViPO): "주인공 얼굴은 훌륭하지만, 손가락이 이상하네? 손가락 부분만 집중해서 고쳐봐!"라고 구체적인 지시를 내립니다.
  • 효과: AI 는 불필요한 부분 (배경 등) 에 에너지를 낭비하지 않고, 사람의 눈이 가장 잘 보이는 중요한 부분에 집중하여 수정합니다.

4. 실제 결과: "더 자연스럽고 아름다운 그림"

이 방법을 적용한 결과, 다음과 같은 변화가 일어났습니다.

  • 자연스러운 조화: 예를 들어, "남자가 무언가를 들고 있는 그림"을 그릴 때, 기존 방식은 남자와 들고 있는 물체가 어색하게 떨어지거나 겹치는 경우가 많았습니다. 하지만 ViPO 는 **"남자와 물체의 연결 부분"**을 중요하게 여겨, 마치 실제 사진처럼 자연스럽게 표현합니다.
  • 동영상의 자연스러움: 영상을 만들 때도, 말리는 말의 다리가 두 개로 나뉘거나 부러지는 같은 실수가 줄어들었습니다. 중요한 움직임 부분에 집중력을 쏟았기 때문입니다.
  • 실수 방지: "빨간색으로 칠해줘"라는 명령을 받았을 때, 기존 방식은 그림 속 사람 얼굴까지 빨갛게 변형시켜 망치는 경우가 있었지만, ViPO 는 배경이나 옷 같은 부분만 빨갛게 칠하고 사람의 얼굴은 원래 모양을 유지했습니다.

5. 요약

이 논문은 **"AI 가 그림을 그릴 때, 전체를 다스리는 거창한 점수표 대신, 사람 눈이 가장 잘 보는 '중요한 부분'을 찾아내어 그곳에만 집중해서 가르치는 새로운 방법"**을 제안했습니다.

마치 명품 수선공이 옷 전체를 다 뜯어고치는 대신, 가장 눈에 띄는 단추 하나만 정성스럽게 다듬어 옷을 완벽하게 만드는 것과 같습니다. 덕분에 AI 가 만든 그림과 영상은 훨씬 더 사람이 보기 좋고, 자연스럽으며, 실수가 적어졌습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →