EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

본 논문은 일본 기업의 10 년간 공시 자료를 기반으로 회계 부정 탐지 및 수익 예측 등 복잡한 금융 과제를 수행하는 LLM 의 능력을 평가하기 위해 'EDINET-Bench'를 제안하고, 최첨단 모델조차 전문가 수준의 추론이 필요한 이러한 과제에서는 인간 전문가나 단순 통계 모델과 큰 차이가 없는 성능을 보임을 밝혀내어, 실제 금융 업무 환경을 반영한 더 정교한 평가 프레임워크의 필요성을 강조합니다.

Issa Sugiura, Takashi Ishida, Taro Makino, Chieko Tazuke, Takanori Nakagawa, Kosuke Nakago, David Ha

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📄 EDINET-BENCH: AI 가 일본 기업의 '진짜 실력'을 꿰뚫어 볼 수 있을까?

이 논문은 **"인공지능 (LLM) 이 정말로 복잡한 금융 업무를 할 수 있을까?"**라는 질문에 답하기 위해 만들어진 새로운 시험지, EDINET-BENCH에 대한 이야기입니다.

기존의 AI 는 수학 문제를 풀거나 코딩을 하는 데는 인간을 뛰어넘는 실력을 보였습니다. 하지만 금융 분야는 다릅니다. 숫자만 보는 게 아니라, 수백 페이지에 달하는 보고서 전체를 읽고, 표와 글자를 연결하며, 전문가의 직관과 논리가 필요한 '진짜' 업무를 해야 하거든요.

이 논문은 그 진짜 업무를 시뮬레이션한 새로운 시험지를 소개합니다.


🏗️ 1. 시험지 만들기: "일본의 거대한 도서관"

이 시험지는 일본의 EDINET(전자공시시스템) 에서 가져온 10 년 치의 기업 보고서로 만들었습니다.

  • 상상해 보세요: 일본에 있는 4,000 개 이상의 상장 기업이 매년 내는 두꺼운 보고서 4 만 권이 쌓여 있는 거대한 도서관이 있습니다. 연구팀은 이 도서관에서 책을 골라내어 3 가지 미션을 만들었습니다.
    1. 사기 탐지 (Fraud Detection): "이 회사의 보고서에 숨겨진 거짓말 (회계 부정) 이 있을까?"
    2. 수익 예측 (Earnings Forecasting): "내년 이 회사의 수익은 오를까, 내릴까?"
    3. 업종 분류 (Industry Prediction): "이 회사의 재무제표만 보고, 이 회사가 어떤 업종 (자동차, 은행, 식품 등) 일지 맞춰라."

이건 단순히 "A 는 얼마, B 는 얼마"를 묻는 게 아니라, **수천 페이지의 문서 속에서 서로 다른 표와 글자를 연결해서 결론을 내려야 하는 '수퍼맨 같은 작업'**입니다.


🤖 2. 시험 결과: AI 는 여전히 '초보생'입니다

연구팀은 최신 AI 모델들 (GPT-4o, Claude 3.7, DeepSeek 등) 을 이 시험지에 풀어보게 했습니다. 결과는 어땠을까요?

결론: AI 는 여전히 '인간 전문가'와 비교하면 초보 수준입니다.

  • 비유: 마치 초등학교 6 학생이 의대생처럼 복잡한 수술을 하려고 시도하는 상황과 비슷합니다.
  • 사기 탐지 & 수익 예측: 최신 AI 들이 이 문제를 풀 때의 성적이, **로지스틱 회귀 (Logistic Regression)**라는 아주 오래되고 간단한 통계 기법보다 조금 더 나을 뿐이었습니다.
    • 즉, AI 가 보고서 전체를 읽었다고 해서 "아, 이 회사는 사기야!"라고 확실히 알아내는 건 여전히 어렵다는 뜻입니다.
  • 업종 분류: 이건 상대적으로 쉬웠습니다. "돈이 많이 들어가는 은행"과 "물건을 파는 유통업"의 재무제표는 생김새가 확실히 다르기 때문에 AI 가 어느 정도 맞추긴 했습니다.

왜 그럴까요?
AI 는 보고서에 있는 숫자는 잘 읽지만, 그 숫자 뒤에 숨겨진 논리적 모순이나 인간의 의도를 파악하는 데는 아직 부족합니다. 예를 들어, "영업이익은 줄었는데 순이익은 왜 갑자기 늘었지?"라는 의문을 품고, 그 이유를 보고서의 작은 글자에서 찾아내야 하는데, AI 는 그 연결고리를 놓치는 경우가 많습니다.


💡 3. 중요한 교훈: "책만 줘서는 안 됩니다!"

이 연구의 가장 큰 메시지는 이것입니다.

"AI 에게 단순히 보고서 파일만 던져주면, AI 는 그걸 제대로 못 씁니다."

  • 비유: 요리사에게 최고의 식재료를 주고 "이걸로 맛있는 요리를 해"라고만 하면, 요리사는 당황합니다. 그는 레시피 (지식), 칼질 기술 (추론 능력), 그리고 어떤 재료가 어울리는지 아는 경험 (전문성) 이 필요합니다.
  • 현재 AI 는 '식재료' (보고서) 는 받았지만, '요리법' (전문적인 추론) 을 아직 완전히 익히지 못했습니다.

따라서, 앞으로는 AI 를 평가할 때 단순히 "보고서를 주고 정답을 맞혀라"가 아니라, 실제 금융 전문가가 일하는 환경을 더 잘 모방한 평가 방식이 필요합니다.

  • 예를 들어, AI 가 스스로 정보를 찾아보게 하거나 (웹 검색), 전문가의 조언을 받으며 단계별로 생각하게 하는 **스캐폴딩 (Scaffolding, 비계)**이 필요합니다.

🚀 4. 이 연구가 왜 중요할까요?

  1. 첫 번째 공개 데이터: 회계 부정 탐지를 위한 공개 데이터셋은 이번이 처음입니다. 앞으로 더 많은 연구자가 이 문제를 해결하려고 노력할 수 있는 발판이 되었습니다.
  2. 현실적인 한계 인정: AI 가 모든 걸 다 할 수 있다는 환상을 깨고, 금융 분야에서는 아직 전문가의 감독이 필수적임을 보여줍니다.
  3. 미래의 길: 이 시험지를 통해 AI 가 어떻게 발전해야 '진짜' 금융 전문가의 도우미가 될 수 있는지 방향을 제시했습니다.

📝 한 줄 요약

"AI 가 일본 기업의 두꺼운 보고서를 읽게 했더니, 아직은 간단한 통계 프로그램보다 조금 더 나을 뿐, 진짜 '금융 전문가'의 눈은 아니었습니다. 앞으로는 AI 에게 단순히 책만 주는 게 아니라, 전문가처럼 생각할 수 있도록 도와주는 '비계'가 필요합니다."