LaMI: Augmenting Large Language Models via Late Multi-Image Fusion

이 논문은 텍스트 기반 대형 언어 모델 (LLM) 에 시각적 정보를 통합하여 시각적 상식 추론 능력을 향상시키면서도 텍스트 추론 성능을 해치지 않고, 단일 이미지나 초기 융합 방식의 한계를 극복하기 위해 제안된 'LaMI'라는 후기 다중 이미지 융합 방법을 소개합니다.

원저자: Guy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim

게시일 2026-04-14
📖 4 분 읽기☕ 가벼운 읽기

이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 라미 (LaMI): "눈이 없는" 거대 AI 에게 상상력을 불어넣는 방법

이 논문은 **"텍스트만 보고 학습한 거대 언어 모델 (LLM)"**이 시각적인 상식 (예: "펭귄 배는 무슨 색일까?") 을 잘 모르는 문제를 해결하기 위해 제안한 새로운 방법, **LaMI(Late Multi-Image Fusion)**에 대한 이야기입니다.

쉽게 비유하자면, **"눈이 보이지 않는 천재 작가에게, 글을 쓸 때 그림을 그려보게 하고 그 그림을 참고하게 만드는 기술"**이라고 생각하시면 됩니다.


1. 왜 이런 기술이 필요할까요? (문제 상황)

  • 텍스트만 공부한 AI (LLM): 책만 엄청나게 읽은 천재입니다. 언어 실력은 최고지만, "펭귄 배가 흰색인지, 노란색인지" 같은 시각적 상식은 책으로만 추론하다 보니 틀리기 쉽습니다. (실제로 Llama3 는 펭귄 배를 '노란색'이라고 잘못 답했습니다.)
  • 텍스트와 그림을 같이 공부한 AI (VLM): 눈과 귀를 모두 쓴 AI 입니다. 시각적 상식은 좋지만, 순수한 언어 추론 능력은 떨어지거나, 새로운 AI 모델을 가르치려면 엄청난 비용과 시간이 듭니다.

핵심 질문: "새로운 AI 모델을 새로 가르치지 않고, 기존 텍스트 AI 에게 시각적 능력을 쉽게 추가할 수 있을까?"


2. LaMI 의 해결책: "상상력"과 "늦은 회의"

LaMI 는 두 가지 핵심 아이디어를 사용합니다.

① "여러 개의 그림을 그려보게 하기" (Late Multi-Image Fusion)

기존 방법들은 질문을 받으면 한 장의 그림만 그려서 참고했습니다. 하지만 그림 한 장은 항상 완벽하지 않을 수 있습니다.

  • LaMI 의 방식: 질문을 받으면 AI 가 여러 장 (예: 6 장) 의 그림을 동시에 그려냅니다.
    • 비유: "펭귄 배 색이 뭐지?"라고 물으면, AI 는 "흰색일 수도 있고, 회색일 수도 있고..." 하며 여러 가지 버전의 그림을 빠르게 스케치합니다.
    • 이렇게 다양한 그림을 보면, AI 는 "아, 대부분의 그림이 흰색이네!"라고 더 확신을 갖게 됩니다.

② "결정 직전에 그림을 참고하기" (Late Fusion)

기존 방법들은 그림을 AI 의 뇌 (네트워크) 안으로 처음부터 넣었습니다. 이는 AI 가 언어를 배우는 과정을 방해할 수 있습니다.

  • LaMI 의 방식: AI 가 글을 거의 다 쓴 **마지막 순간 (결정 직전)**에, 그려진 그림들을 보여주고 "이 그림들을 참고해서 답을 수정해줘"라고 요청합니다.
    • 비유: 작가가 원고를 다 써놓고, 편집자가 "이 그림들을 보니 답이 '흰색'이 맞는 것 같아"라고 조언하면, 작가는 마지막 한 줄만 수정하고 끝냅니다.
    • 이 방식은 AI 의 언어 실력을 해치지 않으면서, 시각적 정보만 필요할 때만 도움을 받습니다.

3. 어떻게 작동하나요? (실제 과정)

  1. 질문 받기: "펭귄 배 색은?"
  2. 그림 생성: AI 가 텍스트만 보고 펭귄의 배 색깔을 상상한 그림을 여러 장 생성합니다. (이때는 AI 가 직접 그림을 그리는 것이 아니라, 텍스트를 보고 그림을 만들어주는 도구를 사용합니다.)
  3. 비교 및 통합:
    • AI 는 그림을 보지 않고 텍스트만으로 답을 유추합니다.
    • 동시에 그려진 여러 그림들을 분석합니다.
    • 중요한 점: 만약 그려진 그림들이 서로 다르고 혼란스럽다면, AI 는 그림을 무시하고 텍스트만으로 답합니다. 하지만 그림들이 일관되게 "흰색"을 보여준다면, AI 는 그림의 의견을 받아들여 답을 "흰색"으로 바꿉니다.
  4. 최종 답안: 가장 신뢰할 수 있는 답을 출력합니다.

4. 왜 이 방법이 특별한가요? (결과)

  • 시각적 상식 대폭 향상: 펭귄 배 색, 사자의 갈기 모양 등 시각적 상식 문제에서 기존 AI 보다 훨씬 잘 맞춥니다.
  • 언어 실력 유지: 그림을 보지 않는 순수 언어 문제 (예: 문법, 논리) 에서도 실력이 떨어지지 않습니다. 오히려 Llama 3 같은 강력한 모델에서는 언어 능력까지 향상되었습니다.
  • 비용 효율: 새로운 AI 모델을 처음부터 훈련시킬 필요 없이, 기존 모델에 작은 장치만 추가하면 됩니다.

5. 한계점 (현실적인 이야기)

  • 시간이 조금 더 걸립니다: 그림을 여러 장 그려야 하므로, 답을 내는 데 약간의 시간이 더 소요됩니다. (하지만 AI 의 성능을 높이기 위한 '투자'라고 볼 수 있습니다.)
  • 그림이 틀릴 수도 있습니다: AI 가 그린 그림이 사실과 다를 수 있습니다. (예: "다트마르도 검을 든다"는 전설적인 이야기를 AI 가 그렸을 때, 실제로는 말의 털이어야 하는데 쇠사슬로 그린 경우). 하지만 LaMI 는 이런 경우를 감지하고 텍스트 우선으로 답할 수 있도록 설계되었습니다.

📝 요약

LaMI는 "눈이 보이지 않는 AI"에게 "여러 가지 상상의 그림을 그려보게 하고, 마지막에 그 그림들을 참고하게 함으로써" 시각적 상식을 가르치는 똑똑한 방법입니다.

기존의 거대 AI 모델을 망치지 않으면서, "눈"을 달아주는 혁신적인 기술이라고 할 수 있습니다!

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →