OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

이 논문은 100 년에 걸친 미국 재무성 공보로 구성된 대규모 문서 코퍼스를 기반으로 한 새로운 벤치마크 'OfficeQA Pro'를 소개하며, 최첨단 LLM 들이 엔터프라이즈급 근거 기반 추론에서 여전히 낮은 성능을 보인다는 점을 입증하고 구조화된 문서 표현의 중요성을 강조합니다.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen

게시일 Tue, 10 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏢 "OfficeQA Pro": AI 가 진짜 사무실 업무를 할 수 있을까?

이 논문은 **"AI 가 복잡한 문서 더미 속에서 진짜 필요한 정보를 찾아서, 숫자를 계산하고 정답을 도출할 수 있을까?"**라는 질문에 답하기 위해 작성된 연구입니다.

마치 AI 에게 "미국 재무부에서 지난 100 년간 발행된 89,000 장이 넘는 문서 (보물창고) 를 뒤져서, 특정 연도의 국방비나 세금을 찾아내고 그래프를 분석하라"는 미션을 준 것과 같습니다.

이 연구를 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드릴게요.


1. 시험지: "OfficeQA Pro" (오피스 QA 프로)

기존의 AI 시험들은 주로 "수학 경시대회 문제"나 "상식 퀴즈"처럼 AI 가 머릿속에 이미 알고 있는 지식을 묻는 경우가 많았습니다. 하지만 현실의 기업 업무는 다릅니다.

  • 비유: 기존 시험이 **"공부한 내용을 암기해서 푸는 시험"**이라면, OfficeQA Pro 는 **"도서관에 있는 100 년 치의 낡은 장부 더미에서 오늘 필요한 세금 표를 찾아서 계산해 보는 실전 시험"**입니다.
  • 내용: 미국 재무부의 1939 년부터 1982 년까지의 bulletin(보도자료) 89,000 페이지와 2,600 만 개 이상의 숫자가 들어있습니다.
  • 문제 유형: "1953 년과 1940 년의 국방비 지출 차이를 인플레이션을 보정해서 계산해 줘" 같은, 단순 검색이 아니라 문서 찾기 → 데이터 추출 → 복잡한 계산 → 정답 도출까지 이어지는 긴 과정이 필요합니다.

2. AI 의 실력: "지식만으로는 5% 도 못 맞춘다"

논문은 최신 AI(클로드, GPT, 제미니 등) 가 이 시험을 어떻게 치렀는지 테스트했습니다.

  • 상황 A (머릿속 지식만 사용): AI 가 외부 자료를 보지 않고 자기 기억만으로 답하려 했을 때, 정답률은 5% 미만이었습니다. (비유: 도서관에 가보지 않고 책상 위에 있는 메모지만 보고 100 년 전의 숫자를 맞추려다 실패한 셈입니다.)
  • 상황 B (인터넷 검색 추가): 인터넷을 검색하게 해줬지만, 여전히 정답률은 12% 미만이었습니다. (비유: 검색은 했지만, 너무 많은 정보 속에서 진짜 필요한 장부를 골라내지 못해 헷갈려 했습니다.)
  • 상황 C (정답 문서 직접 제공): 정답이 있는 페이지를 AI 에게 직접 건네줬을 때, 비로소 34% 정도의 점수를 받았습니다. (비유: 정답이 있는 책장을 직접 보여줬는데도, 그 책장 속의 복잡한 표를 읽는 데서 실수가 많았습니다.)

결론: 아무리 똑똑한 AI 라도, 방대한 문서 속에서 정보를 찾아내고 (Grounded Reasoning), 그것을 정확히 계산하는 능력은 아직 인간 전문가 수준에 훨씬 못 미칩니다.

3. 해결책: "문서를 정리해 주는 비서 (Databricks AI)"

AI 가 문서를 읽을 때 가장 큰 문제는 PDF 파일의 복잡한 레이아웃입니다. 표가 여러 겹으로 쌓여있거나, 스캔된 문서가 글자가 깨져 있는 경우가 많습니다.

  • 비유: AI 가 PDF 를 읽는 것은 글자가 뭉개진 낡은 전단지를 읽는 것과 비슷합니다. 하지만 Databricks 가 만든 ai_parse_document 도구를 쓰면, 이 전단지를 깔끔하게 정리된 엑셀 파일과 텍스트로 변환해 줍니다.
  • 효과: 이 '정리된 문서'를 AI 에게 주었을 때, AI 의 점수는 약 16% 포인트나 급상승했습니다. 즉, AI 가 못 하는 게 아니라, 문서 처리 방식이 문제였던 것입니다.

4. AI vs 인간: 누가 더 빠르고 정확할까?

연구팀은 인간 전문가 3 명과 AI 에게 같은 문제를 풀게 했습니다.

  • 속도: AI 가 약 4 배 더 빨랐습니다. (인간은 30 분, AI 는 3~5 분)
  • 정확도: 문서가 정리되지 않은 PDF를 줬을 때는 인간이 AI 보다 조금 더 잘했지만, 문서가 깔끔하게 정리된 상태에서는 AI 가 인간보다 훨씬 정확했습니다.
  • 인간의 실수: 인간은 숫자를 잘못 적거나, 단위를 헷갈리는 실수를 했습니다.
  • AI 의 실수: AI 는 문서가 깨져 있거나 표가 복잡하면 그 정보를 아예 못 읽거나, 잘못된 숫자를 가져와서 계산했습니다.

5. 왜 아직 완벽하지 않을까? (남은 과제)

AI 가 이 시험에서 50% 이상을 넘지 못한 이유는 다음과 같습니다.

  1. 문서 해독의 한계: 표 (Table) 가 복잡하게 겹쳐 있거나, 그림 (Chart) 이 들어있으면 AI 가 그 의미를 제대로 파악하지 못합니다.
  2. 수정된 데이터 놓침: 재무부 자료는 나중에 숫자가 수정되기도 합니다. AI 는 처음 찾은 숫자에 집착해서 최신 수정된 숫자를 놓치는 경우가 많습니다.
  3. 계산 오류: 복잡한 통계 계산을 할 때, AI 가 중간에 반올림을 잘못하거나 공식을 잘못 적용합니다.

📝 요약: 이 논문이 말하고자 하는 것

이 논문은 **"AI 가 기업에서 일하려면, 단순히 '똑똑한' 것을 넘어 '문서를 잘 읽고, 찾아내고, 계산하는' 능력이 필요하다"**고 말합니다.

현재 AI 는 지식은 많지만, **실무 (Grounded Reasoning)**에서는 아직 초보 수준입니다. 하지만 **문서를 AI 가 읽기 쉽게 정리해 주는 기술 (Parsing)**을 도입하면 성능이 크게 좋아진다는 희망적인 메시지를 전합니다.

한 줄 요약:

"AI 가 기업에서 일하려면, 머리가 좋은 것만으로는 부족하고 복잡한 문서 더미를 깔끔하게 정리해 주는 비서가 필요하며, 아직은 인간 전문가를 완전히 대체할 수는 없지만 빠르게 성장하고 있다."