Enhancing Tool Calling in LLMs with the International Tool Calling Dataset

이 논문은 실제 API 와 다국어 데이터를 기반으로 한 대규모 벤치마크 'International Tool Calling (ITC)'을 제안하여, 기존 도구 호출 연구의 한계를 극복하고 다양한 언어와 지역 환경에서 LLM 의 성능과 강건성을 향상시키는 방법을 제시합니다.

Zuoyu Zhang, Yancheng Zhu

게시일 Mon, 09 Ma
📖 2 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 비서가 가진 '국한된 시야'

지금까지 인공지능 비서들은 주로 영어로만 된 가상의 도구들을 사용해 훈련받았습니다.

  • 비유: 마치 비서가 "미국에 있는 가상의 우체국"이나 "영어만 가능한 가상의 날씨 앱"만 알고 있는 상황입니다.
  • 한계: 실제 세계는 훨씬 복잡합니다. 일본 여행객이 중국의 날씨를 일본어로 물어보거나, 아프리카의 특정 은행 서비스를 호출해야 할 수도 있습니다. 기존 데이터는 이런 **실제 세계의 다양성 (다국어, 다양한 국가, 실제 API)**을 제대로 반영하지 못했습니다.

2. 해결책: 'ITC'라는 거대한 글로벌 도구상자

연구팀은 이 문제를 해결하기 위해 **ITC(국제 도구 호출)**라는 새로운 데이터셋을 만들었습니다.

  • 실제 도구 3,571 개: 가상의 도구가 아니라, 실제로 존재하는 웹사이트나 앱에서 데이터를 주고받는 실제 API(도구) 3,571 가지를 모았습니다.
  • 40 개 국가, 29 개 언어: 미국이나 중국뿐만 아니라 전 세계 40 개 나라의 도구들을 포함하고, 영어뿐만 아니라 29 가지 언어로 질문과 답변을 만들었습니다.
  • 비유: 이제 비서에게 전 세계 40 개 나라의 실제 지도와 29 개 언어로 된 전화번호부를 쥐여준 셈입니다. "파리에서 파리의 맛집을 찾는 것"뿐만 아니라 "베트남의 현지 택시 앱"이나 "스위스의 은행 계좌 조회"도 할 수 있게 된 거죠.

3. 실험 결과: 비서의 성장

연구팀은 이 새로운 데이터로 다양한 인공지능 비서들을 훈련시켜 보았습니다.

  • 초기 상태: 기존 비서들은 영어로 된 복잡한 질문에는 잘했지만, 다른 언어로 된 질문이나 낯선 도구를 만나면 "도구가 없다"고 하거나 "잘못된 정보를 말"하는 실수를 많이 했습니다.
  • 훈련 후: ITC 데이터로 훈련을 시키니, 비서들의 실력이 급격히 향상되었습니다.
    • 특히 영어以外的 언어로 질문했을 때, 도구를 고르는 능력과 파라미터 (설정값) 를 정확히 입력하는 능력이 크게 좋아졌습니다.
    • 마치 비서가 "아, 일본어로 '날씨'라고 하면 이 중국 날씨 앱을 써야구나!"라고 깨닫게 된 것과 같습니다.

4. 핵심 발견: "영어만 배우면 안 돼요"

가장 중요한 발견은 다국어 데이터의 중요성이었습니다.

  • 비유: 비서를 훈련시킬 때 영어로 된 책만 읽게 하면, 영어 질문에는 잘 답하지만 다른 언어 질문에는 엉뚱한 답을 합니다. 하지만 전 세계의 다양한 언어 책을 모두 읽게 하면, 어떤 언어로 물어봐도 상황에 맞는 적절한 도구를 찾아냅니다.
  • 연구 결과, 영어 데이터만 가지고 훈련한 모델보다 전 세계 언어 데이터를 모두 섞어서 훈련한 모델이 비영어권 질문에서 훨씬 뛰어난 성능을 보였습니다.

5. 결론: 더 똑똑하고 안전한 비서로

이 연구는 인공지능이 단순히 텍스트를 쓰는 것을 넘어, 실제 세계의 도구 (날씨, 금융, 여행 등) 를 올바르게 활용할 수 있도록 돕는 중요한 발걸음입니다.

  • 핵심 메시지: 인공지능이 전 세계 어디서나, 어떤 언어로든 사용자의 요청을 들어주고 실제 서비스를 실행하려면, 다양한 문화와 언어, 실제 도구를 경험하게 하는 훈련이 필수적입니다.

이제 인공지능 비서는 더 이상 "영어만 아는 가상의 비서"가 아니라, 전 세계를 누비는 현실적인 도우미로 거듭날 수 있는 토대를 마련한 셈입니다.