Agentar-Fin-OCR

이 논문은 복잡한 레이아웃과 페이지 간 단절 문제를 해결하기 위해 크로스페이지 콘텐츠 통합 알고리즘과Difficulty-adaptive 커리큘럼 학습 등을 도입한 금융 도메인 특화 문서 파싱 시스템 'Agentar-Fin-OCR'과 이를 평가하기 위한 벤치마크 'FinDocBench'를 제안합니다.

Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📄 "금융 문서 해부사"가 등장했습니다: Agentar-Fin-OCR 설명

이 논문은 금융 문서 (연차보고서, 감사보고서 등) 를 컴퓨터가 완벽하게 이해하고 정리할 수 있게 해주는 새로운 기술을 소개합니다. 기존 기술로는 해결하기 어려웠던 "긴 문서의 끊어짐"과 "복잡한 표의 오해"를 해결했죠.

이 기술을 쉽게 이해할 수 있도록 세 가지 핵심 비유로 설명해 드릴게요.


1. 🧩 "퍼즐 조각을 하나로 잇기" (페이지 간 연결)

문제: 기존 OCR(문자 인식) 기술은 문서를 한 장 한 장 (페이지) 씩 따로따로 읽었습니다. 마치 책의 100 페이지가 100 개의 다른 퍼즐 조각처럼 다뤄진 거죠.

  • 현실: 금융 문서는 표 (Table) 가 10 페이지에 걸쳐 이어지거나, 제목이 1 페이지에 있고 내용이 2 페이지에 있는 경우가 많습니다.
  • 기존 방식: "10 페이지의 표"와 "11 페이지의 표"를 따로 읽어서, **"아, 이건 같은 표였구나!"**라는 연결고리를 놓쳐버립니다.
  • 이 기술의 해결책 (Cross-page Consolidation):
    • 이 시스템은 문서 전체를 한 권의 책처럼 봅니다.
    • 페이지가 바뀌더라도 "아, 이 표는 끊어지지 않고 계속 이어지는구나"라고 알아서 퍼즐 조각들을 다시 붙여줍니다.
    • 비유: 책장을 넘길 때마다 책 내용이 끊기는 게 아니라, 한 줄의 긴 리본처럼 자연스럽게 이어지게 만드는 기술입니다.

2. 🗺️ "거대한 도서관의 지도 그리기" (목차 재구성)

문제: 금융 문서는 수십, 수백 페이지에 걸쳐 '제 1 장', '제 1-1 절', '제 1-1-1 항'처럼 **계층 구조 (Hierarchy)**가 매우 복잡합니다.

  • 기존 방식: 각 페이지의 제목만 보고 "이게 1 장 제목인가, 2 장 제목인가?"를 추측하다가, 긴 문서일수록 위치 감각을 잃어버립니다.
  • 이 기술의 해결책 (Document-level Heading Hierarchy Reconstruction):
    • 이 시스템은 문서의 모든 제목을 모아서 가상의 목차 (TOC) 지도를 먼저 그립니다.
    • 비유: 도서관에 들어갔을 때, 책장 하나하나를 뒤지는 게 아니라 전체 도서관의 지도를 먼저 보고 "제 3 구역 2 층 3 번 책장"을 정확히 찾아내는 것과 같습니다.
    • 이렇게 하면 나중에 정보를 찾을 때 (RAG 기술 등) 정확한 위치를 빠르게 찾아낼 수 있습니다.

3. 🔍 "수술실의 정밀한 확대경" (표의 세포 단위 추적)

문제: 금융 감사 (Audit) 에서는 "이 숫자가 어디서 왔는지"를 정확히 증명해야 합니다. "100 억 원"이라는 숫자가 표의 어느 칸에 있었는지, 그 칸이 원본 PDF 의 어떤 좌표에 있는지 알려줘야 합니다.

  • 기존 방식: 표의 내용 (숫자) 만 읽어줄 뿐, "이 숫자가 원본 이미지의 어디에 있었는지"는 모릅니다.
  • 이 기술의 해결책 (CellBBoxRegressor):
    • 표를 읽을 때, 각 칸 (Cell) 마다 **투명한 박스 (Bounding Box)**를 그어 원본 위치를 정확히 표시합니다.
    • 비유: 마치 수술실에서 의사가 "이 혈관은 정확히 이 위치에서 시작됩니다"라고 정확한 좌표를 가리키며 설명하는 것처럼, 데이터의 출처를 100% 추적 가능하게 만듭니다.

📊 "금융 문서 전용 시험지" (FinDocBench)

이 기술이 얼마나 좋은지 증명하기 위해, 연구팀은 **새로운 시험지 (벤치마크)**를 만들었습니다.

  • 이유: 기존 시험지는 일반 문서 (논문, 뉴스) 위주라 금융 문서의 긴 길이복잡한 표를 제대로 평가하지 못했습니다.
  • FinDocBench: 연차보고서, 감사보고서, 증권신고서 등 6 가지 금융 문서 유형으로만 구성된 시험지입니다.
  • 결과: 이 시험지에서 Agentar-Fin-OCR 은 가장 높은 점수를 받으며, 기존 기술들보다 훨씬 정확하고 신뢰할 수 있음을 증명했습니다.

💡 요약

이 기술은 **"긴 금융 문서를 한 장 한 장이 아닌, 하나의 완전한 책으로 이해하고, 표의 숫자 하나하나까지 원본 위치와 함께 정확하게 찾아내는 시스템"**입니다.

이제 은행이나 증권사에서는 수백 페이지의 보고서를 사람이 일일이 확인하지 않아도, 이 시스템이 감사 (Audit) 가 인정할 만큼 정확한 데이터를 뽑아내어 업무 효율을 극대화할 수 있게 되었습니다.