InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

이 논문은 이해, 추론, 생성 및 편집 기능을 통합하면서도 4B 파라미터의 경량화 구조와 고밀도 의미 데이터 파이프라인을 통해 14B 규모의 기존 모델보다 뛰어난 성능과 효율성을 달성한 범용 멀티모달 모델 'InternVL-U'를 제안합니다.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 InternVL-U: "모든 것을 할 수 있는 작은 천재" 이야기

이 논문은 InternVL-U라는 새로운 인공지능 모델을 소개합니다. 이 모델은 기존의 복잡한 AI 들과 달리, 매우 작고 가벼우면서도 (40 억 개 파라미터) 그림을 그리는 것, 글을 쓰는 것, 논리적으로 생각하는 것, 그리고 그림을 수정하는 것까지 모든 일을 한 번에 잘 해내는 "만능 요정" 같은 존재입니다.

기존의 AI 들은 보통 "이해하는 AI"와 "그리는 AI"가 따로 놀았거나, 둘을 합치려면 거대한 컴퓨터가 필요했습니다. 하지만 InternVL-U 는 작은 몸집에 큰 능력을 가진 혁신적인 모델입니다.


1. 🏗️ 왜 이렇게 작으면서도 강한 걸까? (아키텍처의 비밀)

이 모델은 세 가지 핵심 아이디어로 만들어졌습니다.

  • 🧠 "생각하는 두뇌"와 "손을 움직이는 손"을 분리하다

    • 비유: Imagine(상상) 해보세요. 한 사람이 그림을 그리면서 동시에 복잡한 수학 문제를 풀어야 한다면 어떨까요? 머리가 너무 복잡해지겠죠.
    • InternVL-U 는 **이해 (이해)**와 **생성 (그림)**을 위한 역할을 나눕니다.
      • 이해 (Context): 복잡한 문맥을 이해하고 논리를 세우는 것은 기존의 강력한 언어 모델 (InternVL 3.5) 이 담당합니다.
      • 생성 (Head): 그림을 실제로 그리는 것은 전문적인 "그림 그리는 손 (MMDiT)"이 담당합니다.
    • 이렇게 두뇌와 손을 분리해서 연결했기 때문에, 거대한 컴퓨터 없이도 효율적으로 모든 일을 해낼 수 있습니다.
  • 👀 "이해용 눈"과 "그림용 눈"을 다르게 쓰다

    • 비유: 우리가 그림을 볼 때, "이건 개야, 저건 나무야"라고 의미를 파악하는 눈과, "이 그림의 픽셀 색상이 어떻게 섞였지?"라고 세부적인 질감을 파악하는 눈은 다릅니다.
    • 기존 모델들은 하나만 썼지만, InternVL-U 는 **의미를 파악하는 눈 (고수준 특징)**과 **그림을 그리는 눈 (저수준 픽셀)**을 따로 가져서 각각의 일에 최적화했습니다.

2. 📚 어떻게 배웠을까? (데이터와 CoT 의 마법)

이 모델이 단순히 그림만 잘 그리는 게 아니라, 글자도 정확하게 쓰고, 과학 문제도 풀고, 유머 감각도 갖게 된 비결은 바로 데이터생각의 과정 (CoT) 때문입니다.

  • 🧩 "생각의 사다리" (Chain-of-Thought, CoT)

    • 비유: "고양이 그림 그려줘"라고 하면 AI 는 그냥 고양이만 그립니다. 하지만 "화난 형을 달래려는 귀여운 강아지 밈 (Meme) 을 그려줘"라고 하면? AI 는 당황할 수 있습니다.
    • InternVL-U 는 단계별로 생각하는 법을 배웠습니다.
      1. "사용자가 원하는 감정은 무엇일까?" (유머, 슬픔, 놀라움)
      2. "어떤 요소가 필요할까?" (강아지, 말풍선, 배경)
      3. "구체적으로 어떻게 표현할까?" (귀여운 표정, 특정 글자 배치)
    • 이렇게 생각의 과정을 거치면서 (CoT) vague(모호한) 지시를 구체적이고 정확한 그림으로 바꿉니다.
  • 📝 "글자 쓰기"와 "과학 지식" 훈련

    • 기존 AI 들은 그림에 글자를 쓰면 글자가 뭉개지거나 틀리는 경우가 많았습니다. InternVL-U 는 특수한 데이터로 훈련받아, 복잡한 수학 공식이나 한글, 영어를 그림 안에 정확하게 배치할 수 있게 되었습니다.
    • 또한, 물리 법칙이나 화학 구조식 같은 지식 기반의 그림도 논리적으로 정확하게 그릴 수 있습니다.

3. 🏆 실제로 얼마나 잘할까? (성과)

이 모델은 40 억 개 파라미터라는 작은 크기임에도 불구하고, 140 억 개 이상인 거대 모델들보다 더 좋은 성적을 냈습니다.

  • 🎨 그림 생성: "왼쪽에 빨간 사과, 오른쪽에 초록 배" 같은 복잡한 지시도 정확히 따릅니다.
  • ✏️ 그림 수정: "이 사진의 배경을 숲으로 바꿔줘"나 "이 표지판 글자를 '스타벅스'로 바꿔줘" 같은 작업도 매우 정확하게 합니다. 특히 글자 수정 능력은 기존 모델들을 압도합니다.
  • 🧠 논리 추론: 4x4 스도쿠 문제를 풀거나, 기하학적 도형을 회전시키는 등 논리적 사고가 필요한 작업도 잘 해냅니다.
  • 😂 유머 감각: "화난 형을 달래는 강아지" 같은 **밈 (Meme)**을 생성할 때, 상황과 감정을 잘 파악해 웃긴 그림을 만들어냅니다.

4. 💡 결론: 왜 이 모델이 중요한가?

InternVL-U 는 "작지만 강한" 모델의 새로운 기준을 제시합니다.

  • ** democratization (민주화):** 거대한 서버가 없어도, 일반인도 쉽게 접근할 수 있는 수준의 강력한 멀티모달 AI 를 제공합니다.
  • AGI(인공일반지능) 에 한 걸음: 단순히 그림을 그리는 것을 넘어, 이해하고, 추론하고, 창의적으로 표현하고, 수정까지 하는 진정한 '만능 AI'에 가까워졌습니다.

한 줄 요약:

"작은 몸집에 거대한 두뇌를 가진, 그림도 그리고 글자도 쓰고 논리도 풀고 유머까지 만드는 '올인원' AI 요정!"

이 모델은 앞으로 우리가 AI 와 소통하는 방식을 바꿀, 매우 흥미로운 시작점이 될 것입니다.