VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Each language version is independently generated for its own context, not a direct translation.

생각해 보세요. 훌륭한 요리사 (AI) 가 있다고 칩시다. 이 요리사는 재료를 보고 "이게 뭐지?"라고 말하는 것 (단순 인식) 을 넘어, 실제로 요리를 만들어야 합니다.

하지만 이 요리사는 **32 가지의 다양한 주방 도구 (가위, 칼, 믹서기, 온도계 등)**를 가지고 있습니다. 문제는 이 요리사들이 도구를 어떻게 쓰느냐입니다.

기존의 문제:
이전까지의 시험들은 요리사에게 "감자를 자르세요"라고만 물었습니다. 요리사는 칼만 쓰면 되니까 쉽습니다. 하지만 현실에서는 "감자를 씻고, 껍질을 벗기고, 얇게 썰고, 튀긴 후 소스를 발라야 한다"처럼 여러 도구를 순서대로 조합해야 하는 복잡한 레시피가 많습니다. 기존 시험들은 이런 복잡한 조합을 제대로 테스트하지 못했습니다.
이 논문의 해결책 (VTC-Bench):
연구진은 **"복잡한 레시피"**를 가진 새로운 시험지를 만들었습니다.
- 도구상자: 컴퓨터 비전 분야에서 가장 유명한 'OpenCV'라는 라이브러리에서 32 가지의 다양한 도구를 가져왔습니다. (이미지 회전, 색상 변경, 노이즈 제거, 선 그리기 등)
- 시험 문제: 680 개의 문제를 만들었습니다. 문제는 단순하지 않습니다.
  - 예시: "흐릿하게 찍힌 사진 속의 글자를 읽어줘."
  - 해결 과정: AI 는 단순히 글자를 읽으려다 실패할 수 있습니다. 대신 ① 흐림을 제거하는 도구를 쓰고, ② 명암을 조절하는 도구를 쓰고, ③ 글자를 선명하게 만드는 도구를 순서대로 써야만 정답을 얻을 수 있습니다.

연구진은 세계 최고의 AI 모델 19 개를 이 시험에 응시시켰습니다. 결과는 어땠을까요?

전반적인 실력 부족: 최고의 AI 모델조차 평균 점수가 51% 정도에 그쳤습니다. 즉, 절반은 실패했다는 뜻입니다.
편향된 도구 사용: AI 들은 새로운 도구를 배우기보다, 자신이 익숙한 몇 가지 도구 (예: 이미지 자르기, 확대하기) 만 반복해서 사용했습니다. 마치 요리사가 "칼로 자르는 것"만 고집하다가 "믹서기"가 필요한 상황에서도 칼로 억지로 으깨는 것과 같습니다.
계획 수립의 어려움: 복잡한 문제를 풀 때, "어떤 순서로 도구를 써야 할지"를 미리 계획하는 데 매우 서툴렀습니다. 도구를 무작위로 쓰다가 실패하거나, 불필요한 과정을 반복했습니다.
상용 모델 vs 오픈소스: 구글, 오픈AI 같은 거대 기업의 상용 모델은 도구를 잘 활용했지만, 공개된 오픈소스 모델들은 도구를 써도 오히려 실력이 떨어지거나 별 도움이 안 되는 경우가 많았습니다.

이 논문의 가장 중요한 메시지는 **"AI 가 그림을 잘 보는 것과, 그림을 분석하기 위해 도구를 잘 쓰는 것은 완전히 다른 능력"**이라는 점입니다.

현재의 한계: AI 는 그림을 보고 "이게 고양이네"라고 말하는 건 잘하지만, "이 고양이의 눈동자 크기를 측정하려면 이미지를 확대하고, 색을 보정하고, 윤곽선을 그리는 도구들을 조합해야 해"라고 생각하며 행동하는 것은 아직 서툴다는 것입니다.
미래의 방향: 앞으로 더 똑똑한 AI 를 만들려면, 단순히 지식을 늘리는 것뿐만 아니라 복잡한 도구들을 조합하여 문제를 해결하는 '행동 능력'을 훈련시켜야 합니다.

"이 논문은 AI 가 그림을 보고 '무엇'인지 아는 것을 넘어, 복잡한 문제를 해결하기 위해 '어떻게' 도구를 조합하고 사용할 수 있는지를 평가하는 새로운 시험지를 만들었으며, 현재 AI 들은 이 복잡한 조합 능력에서 여전히 많이 부족하다는 사실을 발견했습니다."

유사한 논문