UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

이 논문은 이산적 토큰화의 정보 손실과 연속적 표현의 학습 불안정성이라는 기존 한계를 극복하기 위해, 압축된 연속적 의미 표현과 주시 기반 압축기를 활용하여 이해와 생성을 모두 최적화하는 통합 멀티모달 모델 'UniCom'을 제안합니다.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 유니콤 (UniCom): "이미지 이해와 생성을 하나로 묶은 마법 같은 통역사"

이 논문은 인공지능이 이미지를 보고 이해하는 것이미지를 만들어내는 것을 동시에, 그리고 훨씬 더 잘하게 해주는 새로운 기술인 **'유니콤 (UniCom)'**을 소개합니다.

기존의 AI 모델들은 이미지를 이해할 때와 만들 때 사용하는 '언어'가 달랐습니다. 마치 영어를 할 줄 아는 사람이 프랑스어로 그림을 그려야 하는 상황과 비슷했죠. 그래서 그림을 그릴 때 디테일이 흐려지거나, 이해한 내용을 그림으로 옮기는 데 실수가 자주 발생했습니다.

유니콤은 이 문제를 해결하기 위해 두 가지 핵심 아이디어를 제안합니다.


1. 📦 "고해상도 사진"을 "압축된 지도"로 바꾸다 (압축된 연속 표현)

기존 방식은 이미지를 이해할 때 필요한 방대한 정보 (고해상도 사진) 를 그대로 가지고 있다가, 그림을 그릴 때 이를 조각조각 잘라내어 (이산화) 작은 블록 (토큰) 으로 만들었습니다.

  • 비유: 고해상도 원본 사진을 보고 그림을 그리려는데, 모자이크처럼 조각내어 그 조각들만 보고 다시 그리는 것과 같습니다. 당연히 원래의 섬세한 질감이나 작은 글씨 같은 디테일은 사라지기 마련이죠.

유니콤의 해결책:
유니콤은 이미지를 조각내지 않고, 대신 정보의 양만 줄이는 (압축) 방식을 사용합니다.

  • 비유: 4K 고화질 사진을 가장 중요한 '지도'와 '나침반'만 남긴 압축 파일로 만드는 것과 같습니다. 사진의 모든 픽셀을 다 저장할 필요는 없지만, "산이 어디에 있고, 나무가 어떤 색인지, 글자가 어떻게 쓰여 있는지"라는 **핵심 의미 (의미론적 정보)**는 완벽하게 보존합니다.
  • 효과: AI 는 이 압축된 '지도'를 보고 그림을 그리기 때문에, 원본의 섬세한 디테일 (작은 글씨, 얼굴 특징 등) 이 사라지지 않습니다.

2. 🚀 "질문"이 아니라 "흐름"으로 그림을 그리다 (Transfusion 방식)

그림을 그릴 때 정보를 전달하는 방식도 두 가지가 있었습니다.

  1. 질문 방식 (Query-based): AI 가 "이런 그림을 그려줘"라고 질문을 던지고, AI 가 답을 찾아서 그림을 그리는 방식. (비유: 요리사가 레시피를 보고 재료를 찾아서 요리하는 것)
  2. 흐름 방식 (Transfusion): 텍스트와 이미지를 하나의 연속된 흐름으로 보고, 한 번에 자연스럽게 그림을 완성하는 방식. (비유: 요리사가 손에 든 재료를 보며 즉흥적으로 요리를 만들어가는 것)

유니콤의 선택:
연구 결과, **흐름 방식 (Transfusion)**이 훨씬 더 빠르고 정확하게 그림을 그리는 것으로 밝혀졌습니다.

  • 비유: 질문 방식은 "여기서 저기서 재료를 찾아와야 해서" 시간이 오래 걸리고, 재료를 놓칠 수 있지만, 흐름 방식은 모든 재료가 손에 닿아 있어 훨씬 자연스럽고 일관된 그림을 만들어냅니다. 특히 이미지 편집 작업에서 기존 위치를 유지하면서 새로운 요소를 추가할 때 훨씬 정확합니다.

🌟 유니콤이 가져온 놀라운 변화

이 기술을 적용한 결과, AI 는 다음과 같은 능력을 갖게 되었습니다:

  • 📝 글자까지 완벽하게 그리는 능력: 기존 AI 들은 그림 속 글자를 그릴 때 뭉개지거나 틀리는 경우가 많았는데, 유니콤은 작은 글자까지 정확하게 그릴 수 있습니다.
  • 🎨 정교한 이미지 편집: "배경의 사람을 지우고 리본을 주황색으로 바꿔줘" 같은 복잡한 지시도 얼굴의 특징이나 옷의 질감은 그대로 유지하면서 정확하게 수행합니다.
  • 🧠 이해와 생성의 완벽한 조화: 이미지를 보고 "이건 강아지다"라고 이해하는 능력과, "강아지 그림을 그려줘"라고 해서 그리는 능력이 **같은 뇌 (모델)**에서 작동하므로, 서로 모순되는 일이 없어졌습니다.

💡 결론: 왜 이것이 중요한가요?

기존의 AI 모델들은 **이해 (눈)**와 **생성 (손)**이 따로 놀았기 때문에, 그림을 그릴 때 원래의 의미를 잃거나 디테일이 떨어지는 문제가 있었습니다.

유니콤이미지를 '조각'으로 자르지 않고, '핵심 의미'만 압축해서 전달함으로써, 이해와 생성을 하나로 통합했습니다. 마치 명화가 그려진 원본을 보며 그리는 화가처럼, AI 가 이제 원본의 모든 디테일과 의미를 잃지 않고 자유롭게 그림을 그릴 수 있게 된 것입니다.

이 기술은 앞으로 더 똑똑하고, 더 섬세하며, 더 창의적인 AI를 만드는 중요한 발판이 될 것입니다.