Each language version is independently generated for its own context, not a direct translation.

FlowPortrait: 인공지능이 배우는 '입술 놀림'의 달인

이 논문은 **"한 장의 사진과 녹음된 목소리만으로, 마치 살아있는 사람처럼 입술을 움직이고 표정을 짓는 영상을 만드는 기술"**에 대한 이야기입니다. 기존 기술들은 입술 움직임이 어색하거나, 목소리와 입술이 안 맞거나, 얼굴 표정이 기계처럼 딱딱하다는 문제가 있었는데요. 이 연구는 이를 해결하기 위해 **'강화 학습 (Reinforcement Learning)'**이라는 새로운 방식을 도입했습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: 왜 기존 기술은 '불완전한 배우'였을까?

기존의 인공지능 영상 생성 기술은 마치 연습만 하고 실제 무대 경험을 해보지 못한 신인 배우와 같았습니다.

입술 불일치: 노래를 부르는데 입 모양이 가사랑 안 맞아요.
부자연스러운 표정: 웃을 때 눈이 안 뜨이거나, 화낼 때 얼굴이 찌그러져요.
평가 기준의 한계: 기존 기술들은 "화질이 선명한가?" (픽셀 단위) 를 중요하게 여겼지, "사람이 보기엔 자연스러운가?"는 잘 못 봤어요. 마치 영화 평론가가 "화면이 선명하니까 100 점!"이라고 점수를 주는 것과 비슷하죠.

2. 해결책: FlowPortrait의 3 단계 훈련 과정

이 연구팀은 인공지능을 실제 무대 (영상) 에서 배우게 하기 위해 3 단계로 훈련시켰습니다.

1 단계: 기초 체력 다지기 (SFT - 지도 학습)

먼저, 방대한 양의 실제 인간 영상 데이터를 보며 기초를 다집니다.

비유: 연기 학원에서 수많은 드라마와 영화를 보고 "사람이 어떻게 말하고, 어떻게 웃는지"를 외우는 과정입니다.
결과: 이제 AI 는 기본적인 말하기는 할 수 있게 되었지만, 아직 '연기'가 부족하고 어색한 부분이 남아있습니다.

2 단계: 최고의 비평가 고용하기 (MLLM 평가 시스템)

여기서 핵심은 **"어떻게 점수를 매길 것인가?"**입니다.

기존 방식: "화질이 좋은가?" (기계적 측정)
FlowPortrait 방식: **인공지능 비평가 (MLLM)**를 3 명 고용했습니다.
1. 입술 전문가: 목소리와 입술이 딱 맞는지 확인.
2. 표정 전문가: 감정이 잘 표현되었는지 확인.
3. 움직임 전문가: 얼굴이 너무 떨리거나 어색하지 않은지 확인.
이 세 명의 비평가가 매번 영상을 보고 "1 점부터 5 점까지" 점수를 줍니다. 이제 AI 는 이 점수를 받기 위해 노력하게 됩니다.

3 단계: 실전 연습과 피드백 (강화 학습 - Flow-GRPO)

이제 AI 는 스스로 실수를 고쳐가며 점수를 올리려 노력합니다.

비유: AI 가 영상을 하나 만들어내면, 3 명의 비평가가 점수를 줍니다. 만약 점수가 낮으면 "아, 내가 입술을 너무 빨리 움직였구나"라고 깨닫고 다음엔 고칩니다. 이 과정을 수천 번 반복하며 점수가 가장 높은 '최고의 연기'를 찾아내는 것입니다.
중요한 장치 (보상 해킹 방지): AI 가 비평가만 속이려고 이상한 행동을 할 수 있습니다 (예: 입술만 빠르게 움직여서 점수는 높지만 영상은 깨져 있는 경우). 이를 막기 위해 저수준의 안전장치를 추가했습니다.
- 질감 감지기: 영상이 흐릿하거나 색이 변하지 않았는지 확인.
- 떨림 감지기: 얼굴이 너무 떨리지 않았는지 확인.
- 이 안전장치들이 없으면 AI 는 점수만 높이고 실제 영상은 망가뜨릴 수 있기 때문입니다.

3. 결과: 어떻게 변했을까?

이 훈련을 거친 FlowPortrait는 이전 기술들보다 훨씬 자연스러워졌습니다.

입술: 목소리와 입 모양이 완벽하게 동기화됩니다.
표정: 웃음, 슬픔, 놀람 등 감정이 얼굴에 잘 배어 있습니다.
움직임: 얼굴이 덜덜 떨리지 않고 부드럽게 움직입니다.

사람들이 직접 평가해 봐도, 이 AI 가 만든 영상이 기존 기술들보다 훨씬 더 '살아있는 사람'처럼 보인다고 합니다.

4. 핵심 요약 (한 줄 정리)

"FlowPortrait 는 인공지능이 '입술 전문가', '표정 전문가', '움직임 전문가'라는 3 명의 비평가에게 점수를 받으며, 실수를 고쳐가며 스스로 연기를 갈고닦아, 마치 인간처럼 자연스러운 말하기 영상을 만들어내는 기술입니다."

이 기술은 가상 아바타, 화상 회의, 디지털 엔터테인먼트 등 다양한 분야에서 더 현실적이고 매력적인 경험을 제공할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 오디오 기반 구두 얼굴 (Talking-head) 비디오 생성 기술은 다음과 같은 주요 한계점을 가지고 있습니다:

불완전한 구강 동기화 및 자연스러운 운동 부족: 입술 움직임과 오디오의 정합성 (Lip-sync) 이 부족하거나, 얼굴 표정과 모션이 비자연스러운 경우가 많습니다.
부족한 평가 지표: 기존 평가 지표 (PSNR, SSIM, FVD, LSE-C/D 등) 는 픽셀 수준의 유사성이나 분포 차이에만 집중하여, 인간의 지각과 밀접한 구강 동기화 정확도, 표현력, 모션의 자연스러움을 제대로 반영하지 못합니다.
강화 학습 적용의 어려움: 생성 모델의 품질을 높이기 위해 강화 학습 (RL) 을 적용할 때, 단순한 보상 신호만 사용하면 모델이 보상을 속이는 (Reward Hacking) 현상 (예: 떨림, 색상 변화 등) 이 발생하기 쉽습니다.

2. 제안 방법론 (Methodology)

저자들은 FlowPortrait라는 새로운 프레임워크를 제안하며, 이는 사전 훈련된 멀티모달 대규모 언어 모델 (MLLM) 을 기반으로 한 자기회귀형 직교 흐름 (Autoregressive Rectified Flow, AR-Flow) 아키텍처 위에 강화 학습을 결합한 구조입니다.

2.1. 기본 아키텍처 (Base Model)

BAGEL 기반: 사전 훈련된 멀티모달 LLM 인 BAGEL 을 베이스로 사용합니다.
AR-Flow: 오디오와 참조 이미지를 조건으로 하여 비디오 프레임을 자기회귀적으로 생성하는 직교 흐름 (Rectified Flow) 모델을 사용합니다. 이는 대규모 크로스 모달 지식 (Cross-modal priors) 을 효과적으로 전이할 수 있게 합니다.

2.2. 인간 정렬 평가 시스템 (Human-Aligned Evaluation System)

기존 자동 평가의 한계를 극복하기 위해 MLLM 기반의 평가 프레임워크를 도입했습니다.

다중 에이전트 평가 (Multi-Agent Evaluation): 세 가지 전문 에이전트 (MLLM) 를 통해 구강 동기화 (Lip-sync), 표현력 (Expressiveness), **모션 품질 (Motion)**을 각각 독립적으로 평가합니다.
MAS-MA (Multi-Aspect, Multi-Agent): 각 요소를 전용 MLM 이 평가하고 결과를 집계하는 방식이 인간 판단과 가장 높은 일치도를 보였습니다.

2.3. 강화 학습 파이프라인 (Flow-GRPO)

생성 품질을 극대화하기 위해 Flow-GRPO (Group Relative Policy Optimization) 알고리즘을 적용한 후 학습 (Post-training) 단계를 도입했습니다.

복합 보상 함수 (Composite Reward): 단순히 MLLM 점수만 사용하는 것을 방지하기 위해 다음과 같은 세 가지 요소를 결합한 보상을 설계했습니다.
1. MLLM 기반 보상: 구강 동기화, 표현력, 모션에 대한 MLLM 점수의 평균.
2. 지각적 품질 보상 (Perceptual Reward): LPIPS 를 사용하여 생성된 프레임과 참조 프레임 간의 지각적 왜곡 (텍스처, 색상) 을 패널티로 부과합니다.
3. 일관성 보상 (Consistency Reward): RAFT 를 이용한 광학 흐름 (Optical Flow) 분석을 통해 프레임 간 떨림 (Jitter) 을 감지하고 패널티를 부과합니다.
확률적 샘플링 (Stochastic Sampling): RL 탐색을 위해 직교 흐름의 결정론적 ODE 샘플링에 CPS(Coefficients-Preserving Sampling) 를 도입하여 소량의 노이즈를 주입하고, 이를 통해 안정적인 최적화를 수행합니다.

3. 주요 기여 (Key Contributions)

FlowPortrait 프레임워크: 사전 훈련된 AR-Flow 기반 MLLM 을 활용한 오디오-비디오 생성 프레임워크로, 강력한 크로스 모달 사전 지식을 구두 얼굴 애니메이션에 적용했습니다.
MLLM 기반 평가 체계: 구강 동기화, 표현력, 모션 품질을 세분화하여 평가하는 인간 정렬 평가 시스템을 구축하고, 이것이 기존 자동 지표보다 인간 선호도와 더 높은 상관관계를 보임을 입증했습니다.
강화 학습 기반 품질 향상: MLLM 보상과 지각적/시간적 일관성 보상을 결합한 복합 보상 시스템을 통해 Flow-GRPO 를 적용, Reward Hacking 을 억제하고 고품질의 일관된 비디오를 생성하도록 모델을 미세 조정했습니다.

4. 실험 결과 (Results)

자동 평가 (MLLM 기반): FlowPortrait 의 RL 후 학습 모델은 기존 최첨단 모델 (Sonic, Memo, Echomimic 등) 보다 모든 평가 항목 (구강 동기화, 표현력, 모션) 에서 높은 점수를 기록했습니다.
인간 선호도 평가: 3 명의 어노테이터가 수행한 인간 평가에서도 RL 모델이 SFT(지도 미세 조정) 모델 및 기존 모델들을 압도적으로 능가했습니다. 특히 원본 비디오와의 격차를 크게 줄였습니다.
Ablation Study:
- 보상 설계: MLLM 보상만 사용할 경우 떨림 (Jitter) 이나 색상 변화와 같은 아티팩트가 발생했으나, LPIPS 와 광학 흐름 보상을 추가하면 이러한 문제가 해결되고 자연스러운 비디오가 생성됨을 확인했습니다.
- 노이즈 및 윈도우 크기: 적절한 노이즈 수준 ( $\eta=0.5$ ) 과 최소한의 확률적 업데이트 윈도우 (Window size=1) 가 최적의 성능을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 구두 얼굴 생성 분야에서 MLLM 기반의 정교한 평가 시스템과 강화 학습을 성공적으로 결합한 사례입니다.

기존에 자동 평가 지표가 인간의 지각을 제대로 반영하지 못했던 문제를 MLLM 기반 다중 에이전트 시스템을 통해 해결했습니다.
강화 학습을 적용할 때 발생하는 '보상 속임수 (Reward Hacking)' 문제를, 고수준의 의미론적 보상과 저수준의 지각적/물리적 제약 (LPIPS, 광학 흐름) 을 결합한 복합 보상 설계로 성공적으로 완화했습니다.
이를 통해 더욱 자연스럽고, 표현력이 풍부하며, 오디오와 완벽하게 동기화된 고품질 가상 아바타 생성 기술의 새로운 방향성을 제시했습니다.

FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation