From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

1. 연구의 배경: "AI 가 설명서를 보고 나를 도와줄 수 있을까?"

상상해 보세요. 여러분이 IKEA(이케아) 의 복잡한 책장을 조립하고 있습니다. 설명서는 글자와 그림으로만 되어 있고, 여러분은 손으로 부품을 잡고 있습니다. 이때 눈이 나쁜 AI 비서가 옆에 있다고 칩시다.

과거의 AI: 설명서만 읽거나, 영상만 봤을 뿐, 둘을 연결하지 못해 "어디서부터 시작해야 할지" 몰라요.
이 연구의 목표: AI 가 **설명서 (텍스트/이미지)**와 **실제 조립 장면 (영상)**을 동시에 보고, "지금 3 단계예요, 나사 하나 더 꽂으세요"라고 실시간으로 도와주는 현명한 조립 도우미를 만드는 것입니다.

이를 위해 연구팀은 **'M2AD'**라는 새로운 데이터셋을 만들었습니다. 이는 "설명서와 실제 조립 영상이 완벽하게 매칭된" 거대한 도서관 같은 것입니다.

2. 실험 내용: AI 비서들의 실력 테스트

연구팀은 이 데이터를 이용해 공개된 AI 모델들 (LLaVa, Qwen, MolMo 등) 에게 세 가지 시험을 치렀습니다. 마치 조립 도우미 채용 시험 같은 거죠.

📝 시험 1: "지금 작업 완료했나요?" (Step Completion)

상황: AI 가 설명서의 특정 페이지와, 사용자가 조립 중인 영상을 봅니다.
질문: "이 단계는 다 끝났나요?"
결과: 대부분의 AI 는 동전 던지기 (50%) 수준이었습니다. 설명서 그림과 실제 부품을 비교해서 "아, 이 나사가 다 잠겼구나"라고 판단하는 것이 매우 어려웠습니다.

🔍 시험 2: "이 영상이 설명서의 어느 페이지인가요?" (Step Detection)

상황: 영상과 설명서 페이지 두 장을 보여줍니다. 하나는 맞는 페이지, 하나는 엉뚱한 페이지입니다.
질문: "이 영상은 설명서의 어느 페이지에 해당하나요?"
결과: 역시 대부분의 AI 는 헷갈렸습니다. 하지만 LLaVa-Video와 Qwen2-VL이 조금 더 잘해냈습니다.

🔢 시험 3: "지금 몇 단계인가요?" (Step Identification)

상황: 영상과 설명서 두 장을 보여주고, "지금 몇 단계인가?"라고 숫자로 답하게 합니다.
결과: 대다수 AI 는 숫자를 맞추는 데 실패했습니다. 하지만 MolMo라는 모델이 놀라운 성적을 냈습니다!
- 비결: MolMo 는 설명서와 영상을 나란히 붙여서 보고, "왼쪽의 그림이 맞아요"라고 **공간적 위치 (좌우)**를 이용해 답을 찾았습니다. 마치 "왼쪽 페이지를 보세요"라고 손가락으로 가리키는 것과 비슷합니다.

3. 주요 발견 및 한계: "왜 AI 는 아직 완벽하지 않을까?"

이 실험을 통해 얻은 중요한 교훈들은 다음과 같습니다.

🧩 퍼즐 조각의 부재: 현재 AI 는 설명서 (2D 그림) 와 실제 영상 (3D 현실) 을 연결하는 데 서툴러요. 마치 2 차원 지도를 보며 3 차원 산을 등반하는 것처럼 어렵습니다.
🧠 기억력 부족: AI 는 한 번에 많은 정보를 처리하지 못합니다. 긴 조립 영상을 다 보려면 "기억력 (메모리)"이 필요한데, 일반 가정용 컴퓨터 (소비자용 하드웨어) 에서는 이 기억력이 부족해 정보를 잘라내야 했습니다.
👀 눈의 역할: 가장 잘한 모델 (MolMo) 은 "손가락으로 가리키는 (Pointing)" 능력이 있었습니다. 설명서의 특정 부분을 지시하며 "여기가 맞아요"라고 할 수 있는 능력이 중요하다는 것을 보여줍니다.

4. 결론: 앞으로의 전망

이 논문은 **"AI 가 설명서와 영상을 동시에 이해하는 것은 아직 어렵지만, 가능성은 열려 있다"**고 말합니다.

현재 상태: AI 는 아직 "조립 도우미"로 쓰기엔 실수가 많고, 설명서와 영상을 연결하는 데 고군분투 중입니다.
미래: 하지만 MolMo나 LLaVa 같은 모델들이 보여준 "공간적 이해"와 "여러 이미지를 동시에 보는 능력"은 희망적입니다.
비유: 지금의 AI 는 조립 설명서를 읽는 법은 알지만, 실제 부품을 만져본 적은 없는 초보 견습생과 같습니다. 하지만 이 연구를 통해 어떻게 하면 이 견습생을 더 똑똑한 숙련된 기술자로 키울 수 있을지 방향을 잡았습니다.

한 줄 요약:

"이케아 책장 조립처럼 복잡한 일을 AI 가 설명서와 영상을 보고 도와주려면, 아직은 '눈'과 '기억력'을 더 키워야 하지만, 그 첫걸음을 떼기 위한 훌륭한 지도 (M2AD 데이터셋) 를 만들었습니다."

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

1. 연구의 배경: "AI 가 설명서를 보고 나를 도와줄 수 있을까?"

2. 실험 내용: AI 비서들의 실력 테스트

📝 시험 1: "지금 작업 완료했나요?" (Step Completion)

🔍 시험 2: "이 영상이 설명서의 어느 페이지인가요?" (Step Detection)

🔢 시험 3: "지금 몇 단계인가요?" (Step Identification)

3. 주요 발견 및 한계: "왜 AI 는 아직 완벽하지 않을까?"

4. 결론: 앞으로의 전망

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology)

A. 제안된 데이터셋: M2AD (Manual-to-Action Dataset)

B. 평가 실험 (Baseline Experiments)

3. 주요 결과 (Results)

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance)

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

1. 연구의 배경: "AI 가 설명서를 보고 나를 도와줄 수 있을까?"

2. 실험 내용: AI 비서들의 실력 테스트

📝 시험 1: "지금 작업 완료했나요?" (Step Completion)

🔍 시험 2: "이 영상이 설명서의 어느 페이지인가요?" (Step Detection)

🔢 시험 3: "지금 몇 단계인가요?" (Step Identification)

3. 주요 발견 및 한계: "왜 AI 는 아직 완벽하지 않을까?"

4. 결론: 앞으로의 전망

1. 연구 배경 및 문제 정의 (Problem)

2. 방법론 (Methodology)

A. 제안된 데이터셋: M2AD (Manual-to-Action Dataset)

B. 평가 실험 (Baseline Experiments)

3. 주요 결과 (Results)

4. 주요 기여 (Key Contributions)

5. 의의 및 결론 (Significance)

유사한 논문

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Personalized Federated Sequential Recommender