A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

이 논문은 다음 토큰 예측을 기반으로 한 간단한 오토레거시 모델인 Wallaroo 를 통해 멀티모달 이해, 이미지 생성 및 편집을 통합하고 다양한 해상도와 다국어 지원을 구현하는 새로운 접근법을 제시합니다.

Jie Zhu, Hanghang Ma, Jia Wang, Yayong Guan, Yanbing Zeng, Lishuai Gao, Junqiang Wu, Jie Hu, Leye Wang

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

월라루 (Wallaroo): "한 마리의 천재 오리가 세 가지 일을 동시에 하는 방법"

이 기술 보고서는 **'월라루 (Wallaroo)'**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 그림을 이해하고, 그리고, 수정하는 세 가지 일을 하나의 시스템으로 통합했습니다.

기존의 복잡한 방법들을 버리고, 아주 단순한 원리인 **"다음 단어 예측 (Next-Token Prediction)"**만으로 이 모든 것을 해낸 것이 핵심입니다. 마치 한 마리의 오리가 물속에서 헤엄치고, 공중에서 날며, 땅에서 뛰어다니는 것처럼, 월라루는 하나의 뇌로 모든 일을 처리합니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 아이디어: "모든 것을 언어로 바꾸기"

기존의 AI 들은 그림을 이해할 때와 그림을 그릴 때 서로 다른 '뇌'를 사용하거나, 그림을 그릴 때 소음 (노이즈) 을 제거하는 복잡한 과정을 거쳤습니다. 마치 그림을 이해할 때는 '미술관 큐레이터'가, 그림을 그릴 때는 '화가'가 따로 일하는 것과 비슷합니다.

하지만 월라루는 다릅니다.

  • 비유: 월라루는 그림을 그릴 때도, 이해할 때도 **"단어"**로만 생각합니다.
    • 그림을 보면 그림을 "단어 나열"로 해석합니다.
    • 그림을 그릴 때는 "단어 나열"을 다시 그림으로 번역합니다.
    • 그림을 고칠 때는 "단어 나열"을 수정합니다.

이렇게 하면 AI 가 그림과 텍스트를 오가는 과정에서 정보를 잃지 않고, 훨씬 더 자연스럽게 대화하듯 그림을 다룰 수 있습니다.

2. 월라루의 세 가지 능력 (한 마리의 오리가 세 가지 일을 하다)

이 모델은 세 가지 주요 능력을 하나의 몸통에 담았습니다.

① 이해하기 (눈)

  • 상황: "이 사진에 고양이가 몇 마리 있나요?"라고 물으면 답을 합니다.
  • 비유: 월라루는 큐레이터처럼 그림을 꼼꼼히 살펴보고 내용을 설명해 줍니다. 기존에 그림을 이해하는 데 특화된 모델 (Qwen2.5 VL) 을 그대로 사용해서, 이해하는 능력은 이미 매우 뛰어납니다.

② 그리기 (손)

  • 상황: "고양이가 모자를 쓴 그림을 그려줘"라고 하면 그림을 그립니다.
  • 비유: 월라루는 화가가 됩니다. 하지만 기존 화가들은 그림을 그릴 때 '점 (Pixel)' 하나하나를 직접 칠하는 대신, 그림을 **레고 블록 (숫자 코드)**으로 쪼개어 나열합니다.
    • "레고 블록 1 번, 레고 블록 5 번, 레고 블록 3 번..."이라고 말하면, AI 는 이 나열된 블록을 다시 그림으로 조립합니다.
    • 이 방식 덕분에 이해하는 능력과 그리는 능력을 동시에 훈련할 수 있습니다.

③ 수정하기 (가위와 풀)

  • 상황: "고양이 모자를 빨간색으로 바꿔줘"라고 하면 그림을 수정합니다.
  • 비유: 월라루는 수리공입니다. 여기서 재미있는 점은, 그림을 고칠 때 두 가지 눈을 쓴다는 것입니다.
    • 큰 눈 (의미): "여기에 고양이가 있구나"라고 파악합니다.
    • 작은 눈 (디테일): "고양이 털 결이 어때?"라고 세세하게 봅니다.
    • 이 두 눈을 동시에 사용하여, 그림의 의미는 유지하면서 디테일만 바꾸는 정교한 수정을 가능하게 합니다.

3. 어떻게 훈련시켰을까요? (4 단계 교육 과정)

월라루를 가르치는 과정은 마치 유치원부터 대학원까지 가는 4 단계 과정과 같습니다.

  1. 1 단계 (기초 다지기): 그림을 그리는 '손'을 처음 만들어 봅니다. 아직은 간단한 그림만 그릴 수 있습니다.
  2. 2 단계 (이해와 그리기 병행): 그림을 보는 '눈'과 그리는 '손'을 함께 훈련시킵니다. 그림을 보며 설명하고, 설명을 들으며 그리는 연습을 합니다.
  3. 3 단계 (크기 조절 훈련): 그림 크기를 다양하게 조절하는 법을 배웁니다. 384x384 픽셀부터 512x512 픽셀까지, 다양한 크기의 그림을 다룰 수 있게 됩니다.
  4. 4 단계 (실전 통합): 이해, 그리기, 고치기 세 가지 일을 모두 섞어서 훈련합니다. 이제 월라루는 어떤 명령이 들어와도 상황에 맞춰 가장 적합한 일을 수행할 수 있습니다.

4. 왜 이것이 중요한가요? (장점과 한계)

장점: 단순함의 힘

  • 기존 모델들은 이해와 생성을 연결하기 위해 복잡한 장치를 많이 썼습니다. 하지만 월라루는 **"다음 단어를 예측한다"**는 아주 단순한 원리 하나로 모든 것을 해결했습니다. 이는 마치 복잡한 기계 대신, 한 줄의 시로 모든 감정을 표현하는 것과 같습니다.
  • 중국어와 영어를 모두 잘하며, 다양한 크기의 그림을 다룰 수 있습니다.

한계: 레고 블록의 한계

  • 월라루는 그림을 '레고 블록 (숫자 코드)'으로 표현하기 때문에, 아주 미세한 디테일 (예: 털 한 올 한 올의 정교함) 은 기존에 그림을 직접 그리는 방식 (확산 모델) 보다 조금 떨어질 수 있습니다.
  • 마치 레고로 만든 성은 웅장하지만, 유화처럼 부드러운 붓터치는 완벽하지 않을 수 있는 것과 비슷합니다.

5. 결론: 미래는 어떻게 될까?

이 연구는 **"AI 가 그림을 이해하고, 만들고, 고치는 일을 하나의 뇌로 통합할 수 있다"**는 것을 증명했습니다.

  • 미래의 비전: 앞으로는 사용자가 "이 그림의 배경을 바다로 바꿔주고, 고양이 모자를 벗겨줘"라고 말하면, AI 가 고민 없이 바로 실행해 줄 것입니다.
  • 작은 발견: 연구자들은 그림을 고칠 때, 정보의 순서 (먼저 큰 그림을 볼지, 먼저 디테일을 볼지) 가 결과에 큰 영향을 준다는 것을 발견했습니다. 이는 마치 글을 쓸 때 문장 순서를 잘 맞추는 것이 중요하듯, AI 가 정보를 처리하는 순서도 매우 중요하다는 것을 보여줍니다.

한 줄 요약:
월라루는 복잡한 장치를 덜어내고, "그림을 언어처럼 다루는" 단순한 방식으로, 그림을 보고, 그리고, 고치는 모든 일을 한 번에 해내는 새로운 AI 의 시대를 열었습니다.