RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

이 논문은 Diffusion Transformer 의 각 레이어별 제어 정보 관련성을 분석하여 불필요한 파라미터와 연산을 줄이고, 2 차원 셔플 믹서 (TDSM) 를 도입해 PixArt-delta 대비 15% 의 파라미터와 연산량으로 효율적이면서도 우수한 제어 생성 성능을 달성하는 'RelaCtrl' 프레임워크를 제안합니다.

Ke Cao, Jing Wang, Ao Ma, Jiasong Feng, Xuanhua He, Run Ling, Haowei Liu, Jian Lu, Wei Feng, Haozhe Wang, Hongjuan Pei, Yihua Shao, Zhanjie Zhang, Jie Zhang

게시일 2026-02-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 그림을 그리는 AI 의 '효율적인 지휘자'가 된 RelaCtrl

이 논문은 **"Diffusion Transformer(디퓨전 트랜스포머)"**라는 최신 AI 그림 그리기 기술에 대해 이야기합니다. 이 기술은 텍스트를 보고 사진을 만들거나, 동영상을 생성하는 데 매우 강력하지만, 특정 조건 (예: 엣지, 깊이, 마스크 등) 을 맞춰 그림을 그리는 '제어' 기능을 추가할 때 문제가 생깁니다.

기존 방식은 무조건 무겁고 비효율적이었습니다. 이 논문은 이를 해결하기 위해 **"RelaCtrl"**이라는 새로운 방법을 제안합니다.


1. 문제점: "무조건 다 복사하는" 비효율적인 방식

기존의 AI 그림 제어 기술 (예: PixArt-δ) 은 마치 오케스트라 지휘자가 모든 악기 파트를 두 배로 늘리는 것과 비슷했습니다.

  • 상황: AI 가 그림을 그릴 때, "강아지 그림을 그려줘"라는 명령 (조건) 을 받으면, 기존 방식은 AI 의 뇌 (네트워크) 를 그대로 복사해서 조건을 처리하는 별도의 뇌를 만들었습니다.
  • 문제: 이렇게 하면 AI 의 크기와 계산량이 50% 이상 폭증합니다. 마치 작은 식당에 손님 1 명을 위해 요리사 10 명을 모두 고용하는 것과 같아서, 비용이 너무 많이 들고 느려집니다.
  • 더 큰 문제: 모든 층 (Layer) 에 똑같은 양의 인력을 투입했습니다. 하지만 실제로는 어떤 층은 조건에 매우 민감하고, 어떤 층은 조건과 거의 상관없음이 드러났습니다.

2. 해결책 1: "어디에 집중할지 아는" 지능형 배치 (Relevance-Guided)

저자들은 먼저 **"ControlNet Relevance Score(제어망 관련성 점수)"**라는 실험을 통해 AI 의 뇌가 그림을 그릴 때, 어떤 단계에서 조건 정보가 가장 중요한지를 파악했습니다.

  • 비유: 그림을 그릴 때, 초반과 중반에 구도와 윤곽을 잡는 것이 가장 중요하고, 마지막 단계는 세부적인 채색만 하면 된다는 사실을 발견했습니다.
  • 해결: 그래서 가장 중요한 11 개의 단계 (층) 에만 조건을 처리하는 인력을 배치하고, 중요도가 낮은 깊은 층에는 아예 인력을 두지 않았습니다.
  • 결과: 전체 인력 (파라미터) 을 15% 만 추가해도, 기존에 50% 를 추가했을 때와 똑같은 퀄리티의 그림을 그릴 수 있게 되었습니다.

3. 해결책 2: "썰어 섞는" 초고속 처리기 (TDSM)

중요한 단계에 인력을 배치했다면, 그 인력이 하는 일도 가볍게 만들어야 합니다. 기존 방식은 복잡한 계산 (Self-Attention, FFN) 을 모두 수행했는데, 이는 모든 정보를 다 뒤적여보는 방식이라 느렸습니다.

  • 새로운 도구 (TDSM): 저자들은 **"2 차원 셔플 믹서 (Two-Dimensional Shuffle Mixer)"**라는 새로운 도구를 개발했습니다.
  • 비유:
    • 기존 방식: 책상 위에 있는 모든 카드 (정보) 를 한 장씩 꺼내서 서로 비교하며 정렬하는 것. (매우 느림)
    • TDSM 방식: 카드를 랜덤하게 몇 묶음으로 나누고, 묶음 안의 카드들을 뒤섞어서 (Shuffle) 빠르게 비교한 뒤, 다시 원래 자리로 돌려놓는 것.
  • 효과: 이 방식은 로컬 (국소) 한 정보만 보는 한계를 깨고, 멀리 떨어진 정보들도 효율적으로 연결할 수 있게 합니다. 마치 바둑판의 돌들을 무작위로 섞어서 새로운 전략을 빠르게 세우는 것과 같습니다.

4. 최종 결과: "적은 비용, 높은 퀄리티"

이 두 가지 전략 (중요한 곳에만 집중 + 가볍고 빠른 처리기) 을 합친 RelaCtrl은 다음과 같은 성과를 냈습니다.

  • 비용 절감: 기존 방식 (PixArt-δ) 대비 파라미터는 15%, **계산량은 8.6%**만 증가시켰습니다. (기존은 50% 증가)
  • 성능 유지: 비용은 줄였지만, 그림의 퀄리티와 조건 준수 정확도는 기존 최고 수준과 동일하거나 더 좋습니다.
  • 다양한 적용: 엣지 (Canny), 깊이 (Depth), 분할 (Segmentation) 등 다양한 조건에서도 뛰어난 성능을 발휘했습니다.

📝 한 줄 요약

"AI 가 그림을 그릴 때, 모든 단계에 무작정 인력을 투입하는 대신, 가장 중요한 순간에만 집중하고 (Relevance-Guided), 그 인력도 가볍고 빠르게 움직이게 (TDSM) 하여, 적은 비용으로 최고의 그림을 만들어내는 지혜로운 방법입니다."

이 기술은 AI 그림 생성이 더 저렴하고 빠르게, 그리고 더 널리 보급되는 데 큰 기여를 할 것으로 기대됩니다.