TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

이 논문은 비미분 가능한 보상 신호를 활용하여 소수 단계 확산 모델의 학습을 가능하게 하는 새로운 강화 학습 패러다임인 TDM-R1 을 제안하고, 텍스트 렌더링 및 시각적 품질 등 다양한 작업에서 최첨단 성능을 입증합니다.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

TDM-R1: "한 번에 완성하는 그림 그리기"를 위한 혁신적인 학습법

이 논문은 인공지능이 **매우 적은 단계 (4 단계)**로 고품질 이미지를 만들어내는 기술을 더 똑똑하게 만드는 방법을 소개합니다. 마치 "한 번에 그림을 완성하는 마법"을 더 정교하게 다듬는 과정이라고 생각하시면 됩니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "빠르지만, 가끔 엉망이 되는 그림"

지금까지 AI 는 그림을 그릴 때 수백 번의 작은 수정 (단계) 을 거쳐서 완성했습니다. 하지만 최근 기술 발전으로 4 번의 큰 수정만으로도 아주 빠른 속도로 그림을 그릴 수 있게 되었습니다.

하지만 여기서 문제가 생겼습니다.

  • 기존의 학습법: AI 에게 "이 그림이 마음에 드니?"라고 물어볼 때, AI 가 그 답을 이해하려면 수학적으로 계산 가능한 (미분 가능한) 신호만 받아들일 수 있었습니다.
  • 현실의 문제: 하지만 우리가 실제로 원하는 건 "사람이 보기에 예쁜가?", "문자가 정확하게 적혔는가?", "개 3 마리가 그려졌는가?" 같은 계산으로 바로 풀 수 없는 (비미분 가능한) 기준들입니다.
  • 결과: 기존 방법으로는 AI 가 "빠르지만, 글자는 엉망이고, 개는 5 마리나 그려진" 엉뚱한 그림을 그릴 수밖에 없었습니다.

2. 해결책: TDM-R1 (새로운 학습 시스템)

저자들은 이 문제를 해결하기 위해 TDM-R1이라는 새로운 학습 방식을 개발했습니다. 이 방식은 두 가지 핵심 아이디어를 사용합니다.

비유 1: "확실한 길 (Deterministic Trajectory)"을 이용한 지도

기존의 AI 학습은 길을 찾을 때 "아마도 이쪽일 거야"라고 **추측 (확률적)**하며 나아가서, 중간에 어디를 지났는지 정확히 알 수 없었습니다. 그래서 "어디서 실수했는지"를 알기 어려웠습니다.

하지만 TDM-R1 은 **확실한 길 (Deterministic)**을 사용합니다.

  • 비유: 마치 GPS 가 "이 길로 가세요"라고 정확한 경로를 보여주는 것처럼, AI 가 그림을 그리는 중간 단계 (노이즈에서 선명한 그림으로 변하는 과정) 를 정확히 추적할 수 있습니다.
  • 효과: "어디서 실수했는지"를 중간중간 정확히 파악할 수 있게 되어, "글자가 틀렸네? 여기 고쳐야지!"라고 정확한 피드백을 줄 수 있게 됩니다.

비유 2: "가상의 코치 (Surrogate Reward)"와 "학생 (Generator)"의 팀워크

가장 어려운 점은 "사람이 예쁘다고 한 그림"을 AI 가 직접 이해하고 수정하는 것이 어렵다는 것입니다.

  • 학생 (Generator): 그림을 그리는 AI (4 단계로 그림을 그리는 학생).
  • 가상의 코치 (Surrogate Reward): 학생이 그린 그림을 보고 "이 부분은 좋아, 저 부분은 고쳐야 해"라고 수학적으로 계산 가능한 점수를 매겨주는 AI 코치.

TDM-R1 의 마법:

  1. 학생이 그림을 그립니다.
  2. 실제 인간이나 평가 도구가 "이 그림은 글자가 잘 써져서 점수 100 점!"이라고 점수를 줍니다 (이건 계산할 수 없는 점수).
  3. 가상의 코치는 이 점수를 보고 "아, 이 학생이 이런 그림을 그렸을 때 점수가 높았구나. 다음엔 비슷한 경로를 따라가면 될 것 같아"라고 학습합니다.
  4. 이제 학생은 가상의 코치가 알려준 "수학적인 길"을 따라 그림을 고쳐갑니다.

이렇게 학생과 코치가 서로를 가르치며 동시에 성장하는 방식 (GAN 과 유사한 구조) 을 통해, AI 는 복잡한 지시사항도 정확히 따르는 능력을 갖게 됩니다.


3. 놀라운 성과: "4 단계로 80 단계를 이기다"

이 새로운 방식을 적용한 결과, 놀라운 일이 일어났습니다.

  • 기존의 80 단계 모델: 그림을 그리는 데 80 번의 수정을 거친 고가의 모델.
  • TDM-R1 (4 단계 모델): 그림을 그리는 데 단 4 번의 수정만 거친 모델.

결과:

  • GenEval (명령어 이해도 테스트): 기존 80 단계 모델이 63% 점수를 받았는데, TDM-R1 은 **92%**라는 압도적인 점수를 받았습니다. (비유하자면, 80 번 수정한 화가보다 4 번 수정한 화가가 지시사항을 더 정확히 이해한 셈입니다.)
  • 실제 적용: "마스크에 'TDM-R1'이라고 적힌 우주인", "반짝이는 와이어로 만든 늑대" 같은 복잡한 요청도 정확하게 그려냈습니다.
  • 확장성: 최신 대형 모델 (Z-Image) 에 적용해도 100 단계 모델보다 더 좋은 결과를 냈습니다.

4. 요약: 왜 이것이 중요한가?

이 논문은 **"빠른 AI 도구를 더 똑똑하게 만드는 방법"**을 제시했습니다.

  • 과거: "빠르게 그리려면 정확한 지시를 따르기 힘들어."
  • 지금 (TDM-R1): "빠르게 그리면서도, 사람이 원하는 복잡한 지시 (글자, 개수, 위치) 를 완벽하게 따를 수 있어!"

이 기술은 앞으로 AI 가 만드는 이미지와 동영상이 더 빠르고, 더 정확하며, 더 인간적인 취향을 반영할 수 있는 길을 열었습니다. 마치 초고속으로 그림을 그리는 화가가, 동시에 미술평론가의 눈까지 갖게 된 것과 같습니다.