FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

이 논문은 14 가지 에이전트 설정과 3 개 주요 제공업체의 실행 흔적을 포함한 500 개의 금융 질의로 구성된 'FinRetrieval' 벤치마크를 소개하며, 웹 검색보다 구조화된 데이터 API 를 통한 도구 접근성이 성능에 결정적인 영향을 미친다는 것을 보여줍니다.

Eric Y. Kim, Jie Huang

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📊 "FinRetrieval": AI 가 돈 이야기를 할 때, 정말로 '장부'를 볼 수 있을까?

이 논문은 AI(인공지능) 가 금융 데이터를 찾아내는 능력을 시험하는 새로운 시험지, **'FinRetrieval(핀리트리벌)'**을 소개합니다. 마치 AI 에게 "애플의 작년 3 분기 매출이 얼마였나요?"라고 물었을 때, AI 가 인터넷을 뒤적거리는지, 아니면 정확한 회계 장부를 펼쳐서 숫자를 찾아내는지를 테스트하는 거죠.

이 연구의 핵심 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 왜 이 연구가 필요할까요? (배경)

지금까지 AI 시험들은 주로 **"주어진 문서에서 답을 찾아내는 능력"**을 평가했습니다. 마치 "이 책 30 페이지에 있는 숫자를 찾아줘"라고 하는 거죠. 하지만 현실의 금융 분석가는 책이 아니라, **수천 개의 회사 데이터가 담긴 거대한 전산 시스템 (데이터베이스)**에서 정확한 숫자를 찾아야 합니다.

기존 시험들은 이 '전산 시스템 접근 능력'을 제대로 평가하지 못했습니다. 그래서 이 연구팀은 500 개의 금융 질문정답, 그리고 14 가지 다른 AI 설정의 답변을 모아 새로운 시험지를 만들었습니다.

2. 주요 발견 4 가지 (핵심 결과)

🏆 발견 1: "도구가 있는가, 없는가"가 모든 것을 결정한다

가장 충격적인 결과는 AI 가 어떤 '도구'를 쓰느냐에 따라 실력이 천차만별이라는 것입니다.

  • 비유: AI 를 탐정이라고 상상해 보세요.
    • 상황 A (정확한 데이터 도구 사용): 탐정이 **비밀스러운 금고 (정형화된 금융 API)**의 열쇠를 가지고 있습니다. 그는 금고에서 정확한 숫자를 바로 꺼냅니다. (클로드 Opus 기준 90.8% 정답률)
    • 상황 B (인터넷 검색만 사용): 탐정이 금고 열쇠를 잃어버리고, **인터넷 카페 게시판 (웹 검색)**만 뒤집니다. 여기서는 정확한 숫자가 아니라 "어디서 들은 소문"이나 "잘린 문장"만 나옵니다. (클로드 Opus 기준 19.8% 정답률)

결과: 같은 AI 모델이라도 정확한 데이터 도구를 쓰느냐에 따라 실력이 3~4 배나 달라졌습니다. 모델이 얼마나 똑똑한지보다, 어떤 도구를 쓰느냐가 훨씬 중요했습니다.

🧠 발견 2: "생각하는 시간"이 도움이 되는 경우는 따로 있다

최근 AI 들은 "생각하는 시간 (Reasoning Mode)"을 더 많이 할수록 똑똑해진다고 합니다. 하지만 이 연구는 어떤 AI 에게는 효과가 크고, 어떤 AI 에게는 효과가 작다는 것을 발견했습니다.

  • 비유:
    • OpenAI(GPT): 평소에는 도서관에서 책을 찾는 법을 잘 몰랐습니다 (도구 사용이 서툴렀음). 그래서 "생각하는 시간"을 늘리니, "어? 이 책이 어딘가에 있었지?"라고 더 잘 찾아냈습니다. (정답률 9.0% 상승)
    • Claude: 이미 평소에도 도서관 사서처럼 책을 잘 찾았습니다. 그래서 "생각하는 시간"을 늘려도 큰 변화가 없었습니다. (정답률 2.8% 상승)

결론: "생각하는 시간"은 원래 도구 사용법이 서툰 AI를 구제하는 약처럼 작용했습니다.

⚡ 발견 3: "첫 번째 시도"가 성공하면 끝이다

정답을 맞춘 AI 는 도구를 적게 썼고, 틀린 AI 는 도구를 많이 썼습니다. 하지만 원인은 '도구 사용 횟수'가 아니라 **'첫 번째 시도'**였습니다.

  • 비유: 식당에서 메뉴를 주문할 때, **첫 번째로 들어간 문 (검색)**에서 원하는 메뉴를 찾으면 바로 주문하고 끝납니다. 하지만 첫 번째 문에서 찾지 못하면, 식당 구석구석 (추가 검색) 을 뒤져야 하고, 그 과정에서 실수할 확률이 높아집니다.
  • 통계: 첫 번째 검색에서 정답을 찾으면 **93%**가 맞지만, 실패하면 **77%**로 떨어집니다.

🌍 발견 4: "국가"가 아니라 "달력"의 문제

미국 기업과 비미국 기업 (일본, 인도 등) 에 대한 AI 의 정답률 차이가 있었습니다. 이는 AI 가 특정 국가를 못 알아서가 아니라, 회계 연도 (Fiscal Year) 표기법이 달라서였습니다.

  • 비유:
    • 미국: 1 월 1 일~12 월 31 일 (해당 연도 = 2023 년)
    • 일본/영국 등: 4 월 1 일3 월 31 일 (회계 연도 = 2022 년 4 월2023 년 3 월)
    • AI 는 "2023 년"이라고 하면 무조건 1 월~12 월을 찾는데, 일본 기업은 2022 년 4 월부터 시작하는 데이터를 줍니다.
    • 결과: AI 가 바보가 아니라, 달력 규칙을 몰라서 실수한 것입니다.

3. 이 연구가 우리에게 주는 교훈

  1. AI 모델 선택보다 '데이터 연결'이 중요하다: 어떤 최신 AI 를 쓰든, 정확한 금융 데이터베이스 (API) 에 연결되어 있지 않으면 20% 도 안 되는 실력을 냅니다. 반면 연결만 잘되면, 모든 AI 가 90% 이상의 실력을 냅니다.
  2. 문서 설명이 부족하면 AI 는 헤맨다: AI 가 틀린 이유 중 63% 는 '기간 (Period)'을 잘못 이해해서였습니다. 예를 들어 "2023 회계연도"가 정확히 언제부터 언제까지인지 도구에 명확히 적혀있지 않으면 AI 는 헷갈립니다.
  3. 실무 적용 팁: 금융 AI 를 도입할 때는 "어떤 AI 가 가장 똑똑한가?"를 고민하기보다, **"우리의 데이터를 AI 가 어떻게 읽을 수 있게 연결할 것인가?"**를 먼저 고민해야 합니다.

📝 한 줄 요약

"AI 가 금융 데이터를 찾아낼 때, 가장 중요한 건 AI 의 두뇌가 아니라, 정확한 숫자가 담긴 '금고 열쇠 (데이터 도구)'를 쥐어주는 것이다."

이 연구는 AI 가 단순히 글을 쓰는 것을 넘어, 실제 비즈니스 현장에서 숫자를 찾아내는 '실무자'로 성장하기 위해 필요한 조건들을 명확히 보여줍니다.