Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

이 논문은 멀티모달 대규모 언어 모델 (MLLM) 이 모달리티 간에 학습된 기술을 조합하는 데 있어 상당한 격차가 존재하며, 프롬프팅이나 미세 조정과 같은 기존 전략으로도 이를 완전히 해결하지 못함을 규명했습니다.

Paula Ontalvilla, Aitor Ormazabal, Gorka Azkune

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 제목: "AI 는 여러 재능을 합치는 데 왜 서툴까?"

1. 연구의 배경: AI 는 천재일까, 바보일까?

최근 AI 는 그림을 보고 설명을 쓰거나, 복잡한 수학을 푸는 등 엄청난 능력을 보여줍니다. 연구자들은 "AI 가 배운 여러 기술을 (예: 글씨 읽기, 수학 계산, 사물 찾기) 서로 연결해서 새로운 문제를 해결할 수 있을까?"라고 궁금해했습니다.

마치 요리사를 상상해 보세요.

  • 기술 A: 채소를 썰 수 있다.
  • 기술 B: 소스를 만들 수 있다.
  • 질문: 이 요리사가 채소를 썰고 소스를 만들어서 '샐러드'를 만들 수 있을까?

사람이라면 당연히 "물론이지!"라고 답하겠죠. 하지만 이 논문은 AI 는 이 연결고리를 만드는 데 매우 서툴다는 놀라운 사실을 발견했습니다.

2. 실험: AI 의 '연결 능력'을 테스트하다

연구진은 AI 에게 세 가지 간단한 미션을 주었습니다. 인간에게는 너무 쉬워서 '어? 이거 뭐야?' 싶을 정도였죠.

  1. 그림 속 수학 문제 풀기: (이미지 속 글씨를 읽는 능력 + 수학 계산 능력)
    • 비유: 칠판에 적힌 수학 문제를 보고 답을 구하는 것.
  2. 사물 세기: (그림에서 사물 찾기 능력 + 숫자 세기 능력)
    • 비유: 사진 속 '오렌지'가 몇 개 있는지 세는 것.
  3. 카드 게임: (카드 모양 구분 능력 + 규칙에 따른 점수 계산 능력)
    • 비유: 카드의 무늬와 숫자를 보고 점수를 합산하는 것.

3. 충격적인 결과: "직접 하라" vs "단계별로 하라"

연구진은 두 가지 방식으로 AI 를 테스트했습니다.

  • 방법 1 (직접 해결): "이 그림 보고 답을 줘!"라고 한 번에 요청.
  • 방법 2 (단계별 강제): "먼저 그림 속 글씨를 읽어줘" → "그 다음에 그 글씨로 수학 문제를 풀어줘"라고 두 번에 걸쳐 명령.

결과:
대부분의 AI 는 **방법 2(단계별)**에서 훨씬 잘 풀었습니다. 하지만 **방법 1(한 번에)**에서는 엉뚱한 답을 내놓거나 실패했습니다.

💡 핵심 비유:
마치 레고 조립을 시켰을 때, "이 레고로 자동차 만들어!"라고 하면 (방법 1) AI 는 레고 조각을 잘 못 보고 엉뚱한 모양을 만듭니다. 하지만 "일단 바퀴를 찾아줘" → "그다음 차체를 만들어줘"라고 (방법 2) 단계별로 지시하면 잘 만듭니다.

결론: AI 는 각 기술 (레고 조각) 은 잘 다룰 줄 알지만, 그것들을 자연스럽게 연결 (조립) 하는 능력은 아직 부족합니다. 이를 논문에서는 **'스킬 조합 간극 (Skill Composition Gap)'**이라고 부릅니다.

4. 왜 이런 일이 일어날까?

AI 는 훈련 과정에서 '그림 읽기'와 '수학 풀기'를 따로따로 배웠을 뿐, 이 둘을 동시에 쓰면서 문제를 해결하는 법을 충분히 연습하지 않았기 때문입니다. 마치 피아노 치는 법노래 부르는 법을 따로 배운 가수가, 둘을 합쳐서 '피아노 반주에 맞춰 노래'를 부르는 건 처음이라 어색한 것과 비슷합니다.

5. 해결책은 있을까? (시도해 본 것들)

연구진은 이 간극을 좁히기 위해 두 가지 방법을 시도했습니다.

  1. 생각의 사슬 (Chain-of-Thought) 지시:
    • "먼저 그림을 보고 글자를 읽어, 그다음 그 글자로 계산해"라고 AI 에게 생각하는 순서를 자세히 알려주는 것입니다.
    • 결과: 조금 나아졌지만, 여전히 완벽하지는 않았습니다. AI 가 지시를 따르는 데는 도움이 되지만, 근본적인 연결 능력이 부족합니다.
  2. 특별한 훈련 (Fine-tuning):
    • AI 에게 "그림을 보고 바로 답을 내는 문제"를 집중적으로 훈련시킨 것.
    • 결과: 특정 문제에서는 잘 풀게 되었지만, 다른 문제로 넘어가면 다시 실패했습니다.

6. 결론 및 시사점

이 논문은 **"AI 가 아무리 똑똑해져도, 서로 다른 능력을 자연스럽게 연결하는 데는 아직 한계가 있다"**는 것을 증명했습니다.

  • 현재 상태: AI 는 각 분야 (시각, 언어) 의 전문가일 수는 있지만, 그들을 팀워크로 묶어 새로운 문제를 해결하는 '팀 리더' 역할은 아직 서툴다.
  • 미래: 앞으로의 연구는 AI 가 단순히 지식을 쌓는 것을 넘어, 배운 것들을 유연하게 조합 (Composition) 할 수 있도록 만드는 방법을 찾아야 합니다.

한 줄 요약:

"AI 는 그림도 보고 글도 읽지만, 둘을 합쳐서 문제를 해결할 때는 여전히 **'연결 고리'**가 약해서 자주 넘어집니다. 우리는 AI 가 더 자연스럽게 여러 재능을 섞어 쓸 수 있도록 도와줘야 합니다."