LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

이 논문은 텍스트 이해와 시각 생성을 위한 혼합 확산 (MoD) 프레임워크와 길이 적응 전략을 통해 멀티모달 이해 및 생성에서 최첨단 성능을 달성한 'LLaDA-o' 모델을 제안합니다.

Zebin You, Xiaolu Zhang, Jun Zhou, Chongxuan Li, Ji-Rong Wen

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 아이디어: "한 명의 요리사, 두 개의 전문 주방"

기존의 AI 모델들은 보통 한 가지 방식만 사용했습니다. 예를 들어, 텍스트를 다룰 때는 '글자 하나씩 순서대로 나열하는 방식 (자동 완성)'을 썼고, 그림을 그릴 때는 '노이즈를 서서히 제거하는 방식 (확산)'을 썼습니다. 이 두 가지를 섞으려다 보니 AI 가 혼란을 겪거나 성능이 떨어지는 문제가 있었습니다.

LLaDA-o는 이를 해결하기 위해 **"혼합 확산 (Mixture of Diffusion)"**이라는 독특한 방식을 도입했습니다.

  • 비유: imagine 하세요. 거대한 식당에 **한 명의 천재 요리사 (공통 두뇌)**가 있습니다.
    • 식탁 (텍스트 이해): 손님이 주문한 메뉴 (텍스트) 를 이해할 때는, 요리사가 **가려진 식자재 (마스크된 글자)**를 보고 "아, 여기는 고기가 들어갈 거야"라고 한 번에 여러 개를 동시에 추측합니다. (이건 '마스크 확산' 방식입니다.)
    • 주방 (이미지 생성): 손님이 "멋진 sunset 그림 그려줘"라고 요청하면, 요리사는 **흐릿한 안개 (노이즈)**를 천천히 걷어내며 **선명한 그림 (이미지)**을 만들어냅니다. (이건 '연속 확산' 방식입니다.)

LLaDA-o 의 가장 큰 특징은 이 두 가지 작업을 **서로 다른 전문가 (Expert)**에게 맡기되, **같은 두뇌 (Attention Backbone)**를 공유한다는 점입니다.

  • 텍스트 이해 전문가: 글자를 동시에 추측하는 데 특화됨.
  • 이미지 생성 전문가: 안개를 걷어내며 그림을 그리는 데 특화됨.
  • 공통 두뇌: 두 전문가가 서로 대화하고 정보를 공유할 수 있게 해주는 연결고리 역할을 합니다.

이렇게 하면 AI 가 "글자는 글자대로, 그림은 그림대로" 최적의 방법으로 처리하면서도, 서로의 정보를 자연스럽게 융합할 수 있습니다.

2. 새로운 기술: "유연한 길이 조절 (Length-Adaptive)"

기존 모델들은 그림이나 글을 만들 때 **반드시 정해진 칸 수 (예: 100 자, 100 픽셀)**만 채우도록 설계되어 있었습니다. 만약 손님이 "짧은 문장만 써줘"라고 하면 100 칸을 억지로 채우거나, "긴 설명이 필요해"라고 하면 100 칸이 부족해 문제가 생겼습니다.

LLaDA-o데이터 중심의 유연한 길이 조절 전략을 도입했습니다.

  • 비유: 마치 마술사가 변하는 지팡이처럼 작동합니다.
    • 훈련할 때, AI 는 "오늘은 10 칸만 채워봐", "내일은 50 칸까지 이어봐"라고 무작위로 길이를 바꿔가며 연습합니다.
    • 실제 사용할 때는, AI 가 "이제 다 썼어 (종료)"라고 판단하면 즉시 멈추고, "아직 더 쓸 게 있어"라고 판단하면 새로운 칸을 추가하며 계속 이어갑니다.
    • 결과적으로 사용자의 요청에 맞춰 짧은 답도, 긴 설명도 자연스럽게 처리할 수 있습니다.

3. 성능: "왜 이 모델이 특별한가?"

이 모델은 다양한 테스트에서 기존 모델들을 압도했습니다.

  • 이해력: "이 그림에 시간이 몇 시야?"라고 물으면, 시계 바늘을 정확히 보고 "6 시 30 분"이라고 답합니다. (기존 모델들은 그림을 보고 글자를 쓰는 데 어려움을 겪곤 했습니다.)
  • 생성력: "우주복을 입은 판다우주선이 은하수를 타고 서핑을 한다"는 복잡한 주문을 받으면, 판다의 털 질감부터 은하의 빛까지 세부적인 디테일까지 완벽하게 그려냅니다.
  • 속도: 같은 작업을 할 때, 기존 모델보다 약 6 배 더 빠릅니다. (불필요한 계산을 줄여서 효율을 높였기 때문입니다.)

4. 요약: 한 마디로 뭐가 좋은가요?

LLaDA-o는 **"글자를 읽고 그림을 그리는 두 가지 능력을, 서로 다른 방식 (마스크 vs 확산) 으로 최적화하되, 하나의 두뇌로 통합한 초지능 AI"**입니다.

  • 기존 모델: 글자는 글자대로, 그림은 그림대로 따로따로 처리하거나, 무리하게 섞어서 성능이 떨어짐.
  • LLaDA-o: 각자의 특성에 맞는 방식으로 처리하되, 서로 협력하여 더 빠르고, 더 정확하며, 더 유연하게 작동함.

이 기술은 앞으로 우리가 AI 와 대화할 때, 복잡한 지시사항을 한 번에 이해하고 그에 맞는 그림이나 글을 자연스럽게 만들어낼 수 있는 토대가 될 것입니다.