From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

이 논문은 가구 조립 비디오와 설명서를 정렬한 'M2AD' 데이터셋을 구축하여 멀티모달 대형 언어 모델 (MLLM) 이 기술적 작업 보조자로서 설명서 참조, 진행 상황 추적, 그리고 추론 능력을 얼마나 효과적으로 수행하는지 평가하고, 현재 모델의 한계와 향후 개선 방향을 제시합니다.

Federico Toschi, Nicolò Brunello, Andrea Sassella, Vincenzo Scotti, Mark James Carman

게시일 2026-03-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 연구의 배경: "AI 가 설명서를 보고 나를 도와줄 수 있을까?"

상상해 보세요. 여러분이 IKEA(이케아) 의 복잡한 책장을 조립하고 있습니다. 설명서는 글자와 그림으로만 되어 있고, 여러분은 손으로 부품을 잡고 있습니다. 이때 눈이 나쁜 AI 비서가 옆에 있다고 칩시다.

  • 과거의 AI: 설명서만 읽거나, 영상만 봤을 뿐, 둘을 연결하지 못해 "어디서부터 시작해야 할지" 몰라요.
  • 이 연구의 목표: AI 가 **설명서 (텍스트/이미지)**와 **실제 조립 장면 (영상)**을 동시에 보고, "지금 3 단계예요, 나사 하나 더 꽂으세요"라고 실시간으로 도와주는 현명한 조립 도우미를 만드는 것입니다.

이를 위해 연구팀은 **'M2AD'**라는 새로운 데이터셋을 만들었습니다. 이는 "설명서와 실제 조립 영상이 완벽하게 매칭된" 거대한 도서관 같은 것입니다.

2. 실험 내용: AI 비서들의 실력 테스트

연구팀은 이 데이터를 이용해 공개된 AI 모델들 (LLaVa, Qwen, MolMo 등) 에게 세 가지 시험을 치렀습니다. 마치 조립 도우미 채용 시험 같은 거죠.

📝 시험 1: "지금 작업 완료했나요?" (Step Completion)

  • 상황: AI 가 설명서의 특정 페이지와, 사용자가 조립 중인 영상을 봅니다.
  • 질문: "이 단계는 다 끝났나요?"
  • 결과: 대부분의 AI 는 동전 던지기 (50%) 수준이었습니다. 설명서 그림과 실제 부품을 비교해서 "아, 이 나사가 다 잠겼구나"라고 판단하는 것이 매우 어려웠습니다.

🔍 시험 2: "이 영상이 설명서의 어느 페이지인가요?" (Step Detection)

  • 상황: 영상과 설명서 페이지 두 장을 보여줍니다. 하나는 맞는 페이지, 하나는 엉뚱한 페이지입니다.
  • 질문: "이 영상은 설명서의 어느 페이지에 해당하나요?"
  • 결과: 역시 대부분의 AI 는 헷갈렸습니다. 하지만 LLaVa-VideoQwen2-VL이 조금 더 잘해냈습니다.

🔢 시험 3: "지금 몇 단계인가요?" (Step Identification)

  • 상황: 영상과 설명서 두 장을 보여주고, "지금 몇 단계인가?"라고 숫자로 답하게 합니다.
  • 결과: 대다수 AI 는 숫자를 맞추는 데 실패했습니다. 하지만 MolMo라는 모델이 놀라운 성적을 냈습니다!
    • 비결: MolMo 는 설명서와 영상을 나란히 붙여서 보고, "왼쪽의 그림이 맞아요"라고 **공간적 위치 (좌우)**를 이용해 답을 찾았습니다. 마치 "왼쪽 페이지를 보세요"라고 손가락으로 가리키는 것과 비슷합니다.

3. 주요 발견 및 한계: "왜 AI 는 아직 완벽하지 않을까?"

이 실험을 통해 얻은 중요한 교훈들은 다음과 같습니다.

  • 🧩 퍼즐 조각의 부재: 현재 AI 는 설명서 (2D 그림) 와 실제 영상 (3D 현실) 을 연결하는 데 서툴러요. 마치 2 차원 지도를 보며 3 차원 산을 등반하는 것처럼 어렵습니다.
  • 🧠 기억력 부족: AI 는 한 번에 많은 정보를 처리하지 못합니다. 긴 조립 영상을 다 보려면 "기억력 (메모리)"이 필요한데, 일반 가정용 컴퓨터 (소비자용 하드웨어) 에서는 이 기억력이 부족해 정보를 잘라내야 했습니다.
  • 👀 눈의 역할: 가장 잘한 모델 (MolMo) 은 "손가락으로 가리키는 (Pointing)" 능력이 있었습니다. 설명서의 특정 부분을 지시하며 "여기가 맞아요"라고 할 수 있는 능력이 중요하다는 것을 보여줍니다.

4. 결론: 앞으로의 전망

이 논문은 **"AI 가 설명서와 영상을 동시에 이해하는 것은 아직 어렵지만, 가능성은 열려 있다"**고 말합니다.

  • 현재 상태: AI 는 아직 "조립 도우미"로 쓰기엔 실수가 많고, 설명서와 영상을 연결하는 데 고군분투 중입니다.
  • 미래: 하지만 MolMoLLaVa 같은 모델들이 보여준 "공간적 이해"와 "여러 이미지를 동시에 보는 능력"은 희망적입니다.
  • 비유: 지금의 AI 는 조립 설명서를 읽는 법은 알지만, 실제 부품을 만져본 적은 없는 초보 견습생과 같습니다. 하지만 이 연구를 통해 어떻게 하면 이 견습생을 더 똑똑한 숙련된 기술자로 키울 수 있을지 방향을 잡았습니다.

한 줄 요약:

"이케아 책장 조립처럼 복잡한 일을 AI 가 설명서와 영상을 보고 도와주려면, 아직은 '눈'과 '기억력'을 더 키워야 하지만, 그 첫걸음을 떼기 위한 훌륭한 지도 (M2AD 데이터셋) 를 만들었습니다."