VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

이 논문은 MLLM 의 복잡한 비주얼 도구 체이닝 능력을 평가하기 위해 32 가지 OpenCV 기반 연산과 680 개의 계층적 문제로 구성된 새로운 벤치마크인 VTC-Bench 를 제안하고, 현재 최첨단 모델조차도 도구 조합 및 장기 계획 수립에서 심각한 한계를 겪고 있음을 규명합니다.

Xuanyu Zhu, Yuhao Dong, Rundong Wang, Yang Shi, Zhipeng Wu, Yinlun Peng, YiFan Zhang, Yihang Lou, Yuanxing Zhang, Ziwei Liu, Yan Bai, Yuan Zhou

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "요리사 AI 와 32 가지 주방 도구"

생각해 보세요. 훌륭한 요리사 (AI) 가 있다고 칩시다. 이 요리사는 재료를 보고 "이게 뭐지?"라고 말하는 것 (단순 인식) 을 넘어, 실제로 요리를 만들어야 합니다.

하지만 이 요리사는 **32 가지의 다양한 주방 도구 (가위, 칼, 믹서기, 온도계 등)**를 가지고 있습니다. 문제는 이 요리사들이 도구를 어떻게 쓰느냐입니다.

  1. 기존의 문제:
    이전까지의 시험들은 요리사에게 "감자를 자르세요"라고만 물었습니다. 요리사는 칼만 쓰면 되니까 쉽습니다. 하지만 현실에서는 "감자를 씻고, 껍질을 벗기고, 얇게 썰고, 튀긴 후 소스를 발라야 한다"처럼 여러 도구를 순서대로 조합해야 하는 복잡한 레시피가 많습니다. 기존 시험들은 이런 복잡한 조합을 제대로 테스트하지 못했습니다.

  2. 이 논문의 해결책 (VTC-Bench):
    연구진은 **"복잡한 레시피"**를 가진 새로운 시험지를 만들었습니다.

    • 도구상자: 컴퓨터 비전 분야에서 가장 유명한 'OpenCV'라는 라이브러리에서 32 가지의 다양한 도구를 가져왔습니다. (이미지 회전, 색상 변경, 노이즈 제거, 선 그리기 등)
    • 시험 문제: 680 개의 문제를 만들었습니다. 문제는 단순하지 않습니다.
      • 예시: "흐릿하게 찍힌 사진 속의 글자를 읽어줘."
      • 해결 과정: AI 는 단순히 글자를 읽으려다 실패할 수 있습니다. 대신 ① 흐림을 제거하는 도구를 쓰고, ② 명암을 조절하는 도구를 쓰고, ③ 글자를 선명하게 만드는 도구를 순서대로 써야만 정답을 얻을 수 있습니다.

🧐 실험 결과: "요리사들의 실력 차이"

연구진은 세계 최고의 AI 모델 19 개를 이 시험에 응시시켰습니다. 결과는 어땠을까요?

  • 전반적인 실력 부족: 최고의 AI 모델조차 평균 점수가 51% 정도에 그쳤습니다. 즉, 절반은 실패했다는 뜻입니다.
  • 편향된 도구 사용: AI 들은 새로운 도구를 배우기보다, 자신이 익숙한 몇 가지 도구 (예: 이미지 자르기, 확대하기) 만 반복해서 사용했습니다. 마치 요리사가 "칼로 자르는 것"만 고집하다가 "믹서기"가 필요한 상황에서도 칼로 억지로 으깨는 것과 같습니다.
  • 계획 수립의 어려움: 복잡한 문제를 풀 때, "어떤 순서로 도구를 써야 할지"를 미리 계획하는 데 매우 서툴렀습니다. 도구를 무작위로 쓰다가 실패하거나, 불필요한 과정을 반복했습니다.
  • 상용 모델 vs 오픈소스: 구글, 오픈AI 같은 거대 기업의 상용 모델은 도구를 잘 활용했지만, 공개된 오픈소스 모델들은 도구를 써도 오히려 실력이 떨어지거나 별 도움이 안 되는 경우가 많았습니다.

💡 핵심 교훈: "보는 것 (인식) 과 행동 (도구 사용) 의 괴리"

이 논문의 가장 중요한 메시지는 **"AI 가 그림을 잘 보는 것과, 그림을 분석하기 위해 도구를 잘 쓰는 것은 완전히 다른 능력"**이라는 점입니다.

  • 현재의 한계: AI 는 그림을 보고 "이게 고양이네"라고 말하는 건 잘하지만, "이 고양이의 눈동자 크기를 측정하려면 이미지를 확대하고, 색을 보정하고, 윤곽선을 그리는 도구들을 조합해야 해"라고 생각하며 행동하는 것은 아직 서툴다는 것입니다.
  • 미래의 방향: 앞으로 더 똑똑한 AI 를 만들려면, 단순히 지식을 늘리는 것뿐만 아니라 복잡한 도구들을 조합하여 문제를 해결하는 '행동 능력'을 훈련시켜야 합니다.

📝 한 줄 요약

"이 논문은 AI 가 그림을 보고 '무엇'인지 아는 것을 넘어, 복잡한 문제를 해결하기 위해 '어떻게' 도구를 조합하고 사용할 수 있는지를 평가하는 새로운 시험지를 만들었으며, 현재 AI 들은 이 복잡한 조합 능력에서 여전히 많이 부족하다는 사실을 발견했습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →