How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

이 논문은 긴 시퀀스 생성 시 누적된 시각적 정보가 오히려 품질 저하를 유발한다는 메커니즘을 규명하고, 이를 해결하기 위해 불필요한 시각 신호를 동적으로 제거하여 장기적 일관성과 안정성을 확보하는 훈련 없는 추론 전략 'UniLongGen'을 제안합니다.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"우리가 이야기를 쓸 때, 그림을 계속 그려나가면 왜 그림이 점점 망가질까?"**라는 질문에 답하고, 그 해결책을 제시한 연구입니다.

비유하자면, 이 논문은 한 명의 화가가 40 장이 넘는 그림을 한 권의 책에 그려넣는 상황을 다룹니다. 처음엔 그림이 예쁘고 캐릭터도 똑같지만, 20 장 정도 지나면 얼굴이 변하고, 배경이 엉망이 되며, 그림 자체가 뭉개져 버립니다.

이 현상을 해결하기 위해 제안된 **'UniLongGen(유니롱젠)'**이라는 기술을 쉽게 설명해 드릴게요.


1. 문제: "기억이 너무 많아서 오히려 망가진다" (기억의 오염)

일반적으로 우리는 "과거를 더 많이 기억할수록 좋은 그림을 그릴 수 있다"고 생각합니다. 하지만 이 연구는 반대라는 사실을 발견했습니다.

  • 비유: 화가가 그림을 그릴 때, 책상 위에 과거에 그린 그림 40 장을 모두 펼쳐놓고 참고한다고 상상해 보세요.
    • 처음엔 참고할 게 많아서 좋지만, 책상이 너무 꽉 차면 화가는 어떤 그림을 봐야 할지 혼란에 빠집니다.
    • 특히, 가장 최근의 그림이나 우연히 비슷한 색을 가진 그림이 화가의 시선을 빼앗아 버립니다.
    • 결과적으로 화가는 "내가 지금 그리는 주인공 얼굴"을 잊어버리고, "과거에 그렸던 엉뚱한 고양이 그림"의 특징을 실수로 섞어버리게 됩니다.

이 논문은 이를 **"시각적 오염 (Visual Pollution)"**이라고 부릅니다. 과거의 그림들이 너무 많아서 AI 가 "무엇을 참고해야 할지" 혼란스러워지고, 엉뚱한 정보 (노이즈) 가 섞여 들어와 그림을 망친다는 것입니다.

2. 해결책: "기억을 정리해 주는 비서" (UniLongGen)

이 문제를 해결하기 위해 연구팀은 **'UniLongGen'**이라는 새로운 방법을 만들었습니다. 이 방법은 AI 가 모든 과거를 기억하는 대신, 가장 필요한 것만 골라내어 기억하게 합니다.

  • 핵심 아이디어: "모두 기억하지 말고, 필요한 것만 기억해"
    • 기존 방식: 과거의 그림 40 장을 모두 책상에 올려두고 그림을 그림. (결과: 혼란과 망가짐)
    • UniLongGen 방식: AI 가 스스로 "지금 이 그림을 그리려면 과거의 어떤 그림 4~5 장이 가장 도움이 될까?"를 판단하고, 나머지는 책상에서 치워버립니다.

3. 어떻게 작동할까? (두 단계의 비서)

UniLongGen 은 AI 의 뇌 구조를 분석하여 두 가지 다른 '비서'를 투입합니다.

  1. 초기 비서 (텍스트 전문):
    • "지금 그림을 그리기 전에 **글자 (대본)**를 잘 봐야 해."
    • 과거의 글자 (텍스트) 중 어떤 부분이 지금 상황과 가장 관련 있는지 골라냅니다. (예: "주인공이 빨간 모자를 썼다"는 대본)
  2. 후기 비서 (그림 전문):
    • "글자는 알았으니, 이제 과거의 그림 중 어떤 게 지금 그림의 스타일과 얼굴을 유지하는 데 도움이 될까?"
    • 과거의 그림 (이미지) 중 가장 중요한 4~5 장만 골라냅니다.

그리고 이 두 비서가 고른 것만 책상에 두고, 나머지는 완전히 치워버립니다 (삭제). 단순히 압축해서 줄이는 게 아니라, 아예 없애버려서 AI 가 헷갈릴 여지를 없앱니다.

4. 왜 이것이 중요한가? (결과)

이 방법을 쓰면 놀라운 변화가 일어납니다.

  • 긴 이야기도 가능: 40 장, 50 장이 넘는 그림을 그려도 첫 장과 마지막 장의 캐릭터 얼굴이 똑같고, 그림의 질이 떨어지지 않습니다.
  • 빠르고 가볍다: 책상에 그림 40 장을 다 올려두지 않고 5 장만 올리니, AI 가 그림을 그리는 속도도 훨씬 빨라지고 컴퓨터 메모리도 덜 씁니다.
  • 외부 도구가 필요 없음: 사람이 "이 그림이 중요해"라고 알려줄 필요 없이, AI 가 스스로 "이게 중요해"라고 판단해서 골라냅니다.

요약

이 논문은 **"기억이 많다고 좋은 게 아니다. 중요한 것만 깔끔하게 정리해야 오래가는 이야기를 만들 수 있다"**는 교훈을 줍니다.

마치 정리 정돈을 잘하는 화가가, 책상에 필요한 도구와 참고 자료만 깔끔하게 두고 나머지 잡동사니는 치워버림으로써, 100 장이 넘는 그림을 그려도 처음처럼 선명하고 일관된 작품을 만들어내는 것과 같습니다.

이 기술 덕분에 앞으로는 만화책, 동화책, 혹은 긴 영상 스토리보드를 AI 가 처음부터 끝까지 일관된 스타일과 캐릭터로 만들어내는 것이 훨씬 쉬워질 것입니다.