FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

이 논문은 실제 사모펀드 구조를 모방한 합성 데이터셋 'FinSheet-Bench'를 통해 대규모 언어 모델 (LLM) 이 복잡한 금융 스프레드시트의 구조적 난이도가 증가함에 따라 오류율이 급격히 상승하여 전문 금융 업무에 단독으로 적용하기 어렵다는 점을 규명하고, 신뢰할 수 있는 추출을 위해서는 문서 이해와 결정론적 계산을 분리하는 새로운 아키텍처가 필요함을 주장합니다.

Jan Ravnik, Matjaž Ličen, Felix Bührmann, Bithiah Yuan, Felix Stinson, Tanvi Singh

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📊 "FinSheet-Bench": AI 가 엑셀 표를 볼 때 왜 망가질까? (쉬운 설명)

이 논문은 **"인공지능 (LLM) 이 복잡한 금융 엑셀 파일을 읽을 때 얼마나 잘하는지, 그리고 왜 아직 전문가가 될 수 없는지"**를 실험한 결과입니다. 마치 "AI 가 회계사 시험을 봤는데, 쉬운 문제는 다 맞췄지만 계산이 들어간 문제는 엉망으로 풀었다"는 이야기와 비슷합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 배경: 왜 이 실험을 했을까요?

금융 투자 회사 (사모펀드 등) 는 매일 수많은 엑셀 파일을 분석합니다. 하지만 이 파일들은 매우 복잡하고 제각각입니다.

  • 현실: 파일마다 표의 모양이 다르고, 합쳐진 셀이 있고, 머리글이 여러 줄이고, 숫자가 뒤죽박죽 섞여 있습니다.
  • 문제: AI 는 글은 잘 읽지만, 이런 '지저분한 표'에서 숫자를 찾아내고 계산하는 데는 아직 서툴러요. 게다가 실제 금융 데이터는 비밀이라 공개할 수 없어서, AI 를 테스트할 만한 '공식 문제집'이 없었습니다.

그래서 연구팀은 실제 금융 회사의 파일 모양을 그대로 베껴서, 내용은 가짜로 만든 'FinSheet-Bench'라는 문제집을 만들었습니다.

2. 실험 내용: AI 들은 어떻게 시험을 봤나요?

연구팀은 OpenAI(GPT), Google(Gemini), Anthropic(Claude) 의 최신 AI 10 개 모델을 불러와서 이 문제집을 풀게 했습니다.

  • 문제 유형:
    • 쉬운 문제: "여기 펀드가 몇 개야?", "A 회사 이름 뭐야?" (단순 찾기)
    • 어려운 문제: "모든 펀드의 평균 수익률을 계산해줘", "수익률이 높은 순서대로 회사 이름을 나열해줘" (계산과 정렬)
  • 방법: AI 에게 엑셀 파일을 텍스트로 변환해서 보여주고, 질문에 답하게 했습니다.

3. 결과: AI 는 얼마나 잘했을까요?

결과는 **"글은 잘 읽지만, 계산은 못 한다"**는 것이었습니다.

  • 최고 성적: 가장 잘한 AI(Gemini 3.1 Pro) 는 **82.4%**를 맞췄습니다.
    • 비유: 시험을 6 개 치면 1 개는 틀린 셈입니다.
    • 현실: 금융 세계에서는 1 개의 실수가 수백만 원, 수천만 원의 손실로 이어질 수 있습니다. 그래서 "혼자서 (사람 없이) 일하게 하기엔 아직 위험하다"는 결론입니다.
  • 난이도 차이:
    • 쉬운 문제 (단순 찾기): 90% 이상 정답률. AI 가 "찾기"는 잘합니다.
    • 어려운 문제 (복잡한 계산/정렬): 30~40% 수준으로 뚝 떨어집니다. AI 가 "계산기" 역할을 하려니 엉망이 됩니다.
    • 파일 크기가 커지면: 파일이 크고 복잡해질수록 AI 는 더 혼란스러워져서 정답률이 50% 이하로 떨어지기도 했습니다.

4. 왜 AI 는 실패할까요? (핵심 원인)

논문은 AI 가 실패하는 이유를 세 가지로 설명합니다.

  1. 2 차원 구조의 붕괴: 엑셀은 '가로 (열)'와 '세로 (행)'가 교차하는 2 차원 공간입니다. 하지만 AI 는 이를 일렬로 늘어선 텍스트로만 봅니다.
    • 비유: 레고 성을 해체해서 벽돌만 나열한 뒤, "이 벽돌이 원래 성의 어느 부분이었는지" 맞추라고 하는 것과 같습니다. AI 는 벽돌 (숫자) 은 보지만, 그 벽돌이 어디에 있어야 하는지 (구조) 를 잊어버립니다.
  2. 숫자 계산의 약점: AI 는 언어를 잘 다루지만, 수학 계산기는 아닙니다. 소수점 몇 자리까지 정확히 계산하거나, 복잡한 비율을 구하는 것은 인간의 계산기나 엑셀 함수만큼 정확하지 않습니다.
  3. 시각적 단서 상실: 엑셀에서는 굵은 글씨, 색칠, 테두리가 "이건 합계입니다", "이건 주의사항입니다"라고 알려줍니다. 하지만 텍스트로 변환되면 이 모든 시각적 힌트가 사라져 AI 는 헷갈립니다.

5. 결론 및 미래: 어떻게 해결할까요?

현재로서는 AI 하나만 믿고 금융 업무를 맡기기엔 너무 위험합니다. 하지만 AI 가 완전히 쓸모없는 것은 아닙니다.

  • 해결책 제안: "AI 가 직접 계산하지 말고, AI 는 숫자를 찾아내고, 컴퓨터 (코드) 가 계산하게 하라"는 것입니다.
    • 비유: AI 를 '데이터를 찾아주는 비서'로 쓰고, '계산은 전산팀 (프로그램) 에게 맡기는 것입니다.
    • AI 가 "A 회사의 매출은 1 억 원, B 회사는 2 억 원"이라고 찾아낸 뒤, "그럼 합계는?"이라는 계산은 사람이 만든 프로그램이 정확하게 수행하게 하면 실수가 사라집니다.

📝 한 줄 요약

"AI 는 엑셀 파일에서 정보를 '찾아내는' 데는 천재지만, 그 정보를 가지고 '계산하고 정리하는' 데는 아직 초보입니다. 그래서 금융 업무에서는 AI 를 보조 도구로 쓰되, 최종 계산과 검토는 사람이 해야 합니다."

이 연구는 AI 가 금융 분야에서 얼마나 발전했는지 보여주면서도, 아직 갈 길이 멀다는 것을 정직하게 알려주는 중요한 보고서입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →