ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

이 논문은 실제 세계의 시각적 맥락과 복잡한 다단계 추론을 요구하는 23,000 개의 인스턴스로 구성된 대규모 멀티모달 데이터셋 'ToolVQA'와 이를 생성하기 위한 'ToolEngine' 파이프라인을 제안하여, 이를 통해 미세 조정된 7B 규모의 대형 언어 모델이 GPT-3.5-turbo 를 능가하는 도구 사용 능력을 입증합니다.

Shaofeng Yin, Ting Lei, Yang Liu

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"ToolVQA"**라는 새로운 프로젝트와 이를 만들기 위한 **"ToolEngine"**이라는 도구에 대해 소개합니다. 아주 쉽게 비유를 들어 설명해 드릴게요.

🍳 비유: "요리하는 로봇"과 "레시피 책"

상상해 보세요. 여러분은 요리를 잘하는 로봇 (AI) 을 가지고 있습니다. 하지만 이 로봇은 아직 **요리 도구 (칼, 팬, 오븐)**를 어떻게 써야 할지, 그리고 복잡한 레시피를 어떻게 따라야 할지 잘 모릅니다.

기존의 연구들은 로봇에게 "감자 껍질 벗기기" 같은 아주 단순한 작업만 시켰습니다. 하지만 현실에서는 "감자 껍질을 벗기고, 양파를 다져서, 오븐에 구운 뒤, 소금 간을 맞춰서"처럼 여러 단계를 거쳐야 하는 복잡한 요리가 필요합니다.

이 논문은 바로 그 **복잡한 현실 세계의 요리 (문제 해결)**를 가르칠 수 있는 **최고급 레시피 책 (ToolVQA 데이터)**과, 그 책을 자동으로 만들어주는 **요리 연구소 (ToolEngine)**를 소개합니다.


1. 문제: 기존 로봇들은 왜 엉뚱한 짓을 할까?

기존에 있던 데이터들은 로봇에게 "가상의 요리"만 시켰습니다.

  • 가상의 상황: "이 가상의 감자는 어떻게 할까요?" (실제 사진이 아님)
  • 단순한 질문: "칼을 써서 감자를 자르세요." (도구를 쓸지 말지 고민할 필요 없음)

하지만 실제 사람은 사진을 보고 "아, 이 감자가 너무 크네. 먼저 칼로 자르고, 그다음에 저기 있는 양파를 찾아서 다져야겠다"라고 **생각의 흐름 (추론)**을 만들어가며 도구를 사용합니다. 기존 로봇들은 이 생각의 과정을 배우지 못해, 현실에서는 엉뚱한 도구를 쓰거나 길을 잃었습니다.

2. 해결책: ToolVQA (현실 세계 요리 레시피 책)

저자들은 ToolVQA라는 새로운 데이터셋을 만들었습니다.

  • 23,000 개의 실제 요리 레시피: 실제 사진 (감자, 와인, 지도 등) 과 실제 질문 ("이 맥주를 만든 양조장이 문을 닫은 지 몇 년 됐을까?") 으로 구성되었습니다.
  • 복잡한 단계: 단순히 "칼을 써라"가 아니라, "먼저 글자를 읽어라 (OCR) → 그다음 인터넷에서 검색해라 → 계산기를 써서 연차를 구해라"처럼 여러 단계를 거쳐야만 답이 나오는 문제들입니다.
  • 다양한 도구: 검색, 계산, 그림 그리기, 글자 인식 등 10 가지 이상의 도구를 7 가지 다른 분야 (지리, 요리, 과학 등) 에서 사용합니다.

3. 핵심 기술: ToolEngine (자동 레시피 생성 공장)

이렇게 방대한 데이터를 사람이 일일이 만들면 너무 오래 걸립니다. 그래서 저자들은 ToolEngine이라는 자동화 시스템을 만들었습니다.

  • 미로 찾기 (DFS) + 나침반 (LCS):
    • 로봇이 미로 (문제 해결 과정) 를 찾을 때, 단순히 무작위로 헤매는 게 아니라, **실제 인간이 어떻게 문제를 풀었는지 (실제 예시)**를 참고합니다.
    • LCS (최장 공통 부분 수열) 기술: 로봇이 현재까지 어떤 단계를 밟았는지 보고, 가장 비슷한 실제 인간 사례를 찾아서 "다음에 무엇을 해야 할지"를 추천해 줍니다. 마치 요리할 때 "아까 그 레시피처럼 소금을 조금 더 넣어야겠다"라고 참고하는 것과 같습니다.
  • 결과: 이 시스템을 통해 실제 인간처럼 복잡한 사고 과정을 거치는 2 만 3 천 개의 데이터가 자동으로 생성되었습니다.

4. 성과: 로봇이 요리 대가가 되다

이 새로운 레시피 책 (ToolVQA) 으로 로봇 (LLaVA-7B 모델) 을 훈련시켰습니다.

  • 놀라운 결과: 훈련된 로봇은 **실제 시험 (ToolVQA)**뿐만 아니라, 본 적 없는 새로운 요리 (다른 데이터셋) 를 할 때도, **유명한 대형 AI(GPT-3.5)**보다 더 잘했습니다.
  • 의미: 이 로봇은 이제 단순히 지시를 따르는 기계가 아니라, **도구를 스스로 선택하고, 여러 단계를 거쳐 문제를 해결하는 진정한 '도구 사용 전문가'**가 되었습니다.

📝 한 줄 요약

"실제 사진과 복잡한 상황을 바탕으로, AI 가 여러 도구를 순서대로 써서 문제를 해결하는 법을 가르치는 새로운 '현실 기반 레시피 책 (ToolVQA)'과, 그 책을 자동으로 만드는 '스마트 공장 (ToolEngine)'을 개발했습니다. 이걸로 훈련된 AI 는 이제 복잡한 현실 문제도 잘 해결합니다!"

이 연구는 AI 가 앞으로 우리 생활에서 실제로 유용한 도구가 되기 위해 필요한, 진짜 현실적인 훈련의 중요성을 보여줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →