Each language version is independently generated for its own context, not a direct translation.
🏢 "OfficeQA Pro": AI 가 진짜 사무실 업무를 할 수 있을까?
이 논문은 **"AI 가 복잡한 문서 더미 속에서 진짜 필요한 정보를 찾아서, 숫자를 계산하고 정답을 도출할 수 있을까?"**라는 질문에 답하기 위해 작성된 연구입니다.
마치 AI 에게 "미국 재무부에서 지난 100 년간 발행된 89,000 장이 넘는 문서 (보물창고) 를 뒤져서, 특정 연도의 국방비나 세금을 찾아내고 그래프를 분석하라"는 미션을 준 것과 같습니다.
이 연구를 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드릴게요.
1. 시험지: "OfficeQA Pro" (오피스 QA 프로)
기존의 AI 시험들은 주로 "수학 경시대회 문제"나 "상식 퀴즈"처럼 AI 가 머릿속에 이미 알고 있는 지식을 묻는 경우가 많았습니다. 하지만 현실의 기업 업무는 다릅니다.
- 비유: 기존 시험이 **"공부한 내용을 암기해서 푸는 시험"**이라면, OfficeQA Pro 는 **"도서관에 있는 100 년 치의 낡은 장부 더미에서 오늘 필요한 세금 표를 찾아서 계산해 보는 실전 시험"**입니다.
- 내용: 미국 재무부의 1939 년부터 1982 년까지의 bulletin(보도자료) 89,000 페이지와 2,600 만 개 이상의 숫자가 들어있습니다.
- 문제 유형: "1953 년과 1940 년의 국방비 지출 차이를 인플레이션을 보정해서 계산해 줘" 같은, 단순 검색이 아니라 문서 찾기 → 데이터 추출 → 복잡한 계산 → 정답 도출까지 이어지는 긴 과정이 필요합니다.
2. AI 의 실력: "지식만으로는 5% 도 못 맞춘다"
논문은 최신 AI(클로드, GPT, 제미니 등) 가 이 시험을 어떻게 치렀는지 테스트했습니다.
- 상황 A (머릿속 지식만 사용): AI 가 외부 자료를 보지 않고 자기 기억만으로 답하려 했을 때, 정답률은 5% 미만이었습니다. (비유: 도서관에 가보지 않고 책상 위에 있는 메모지만 보고 100 년 전의 숫자를 맞추려다 실패한 셈입니다.)
- 상황 B (인터넷 검색 추가): 인터넷을 검색하게 해줬지만, 여전히 정답률은 12% 미만이었습니다. (비유: 검색은 했지만, 너무 많은 정보 속에서 진짜 필요한 장부를 골라내지 못해 헷갈려 했습니다.)
- 상황 C (정답 문서 직접 제공): 정답이 있는 페이지를 AI 에게 직접 건네줬을 때, 비로소 34% 정도의 점수를 받았습니다. (비유: 정답이 있는 책장을 직접 보여줬는데도, 그 책장 속의 복잡한 표를 읽는 데서 실수가 많았습니다.)
결론: 아무리 똑똑한 AI 라도, 방대한 문서 속에서 정보를 찾아내고 (Grounded Reasoning), 그것을 정확히 계산하는 능력은 아직 인간 전문가 수준에 훨씬 못 미칩니다.
3. 해결책: "문서를 정리해 주는 비서 (Databricks AI)"
AI 가 문서를 읽을 때 가장 큰 문제는 PDF 파일의 복잡한 레이아웃입니다. 표가 여러 겹으로 쌓여있거나, 스캔된 문서가 글자가 깨져 있는 경우가 많습니다.
- 비유: AI 가 PDF 를 읽는 것은 글자가 뭉개진 낡은 전단지를 읽는 것과 비슷합니다. 하지만 Databricks 가 만든
ai_parse_document도구를 쓰면, 이 전단지를 깔끔하게 정리된 엑셀 파일과 텍스트로 변환해 줍니다. - 효과: 이 '정리된 문서'를 AI 에게 주었을 때, AI 의 점수는 약 16% 포인트나 급상승했습니다. 즉, AI 가 못 하는 게 아니라, 문서 처리 방식이 문제였던 것입니다.
4. AI vs 인간: 누가 더 빠르고 정확할까?
연구팀은 인간 전문가 3 명과 AI 에게 같은 문제를 풀게 했습니다.
- 속도: AI 가 약 4 배 더 빨랐습니다. (인간은 30 분, AI 는 3~5 분)
- 정확도: 문서가 정리되지 않은 PDF를 줬을 때는 인간이 AI 보다 조금 더 잘했지만, 문서가 깔끔하게 정리된 상태에서는 AI 가 인간보다 훨씬 정확했습니다.
- 인간의 실수: 인간은 숫자를 잘못 적거나, 단위를 헷갈리는 실수를 했습니다.
- AI 의 실수: AI 는 문서가 깨져 있거나 표가 복잡하면 그 정보를 아예 못 읽거나, 잘못된 숫자를 가져와서 계산했습니다.
5. 왜 아직 완벽하지 않을까? (남은 과제)
AI 가 이 시험에서 50% 이상을 넘지 못한 이유는 다음과 같습니다.
- 문서 해독의 한계: 표 (Table) 가 복잡하게 겹쳐 있거나, 그림 (Chart) 이 들어있으면 AI 가 그 의미를 제대로 파악하지 못합니다.
- 수정된 데이터 놓침: 재무부 자료는 나중에 숫자가 수정되기도 합니다. AI 는 처음 찾은 숫자에 집착해서 최신 수정된 숫자를 놓치는 경우가 많습니다.
- 계산 오류: 복잡한 통계 계산을 할 때, AI 가 중간에 반올림을 잘못하거나 공식을 잘못 적용합니다.
📝 요약: 이 논문이 말하고자 하는 것
이 논문은 **"AI 가 기업에서 일하려면, 단순히 '똑똑한' 것을 넘어 '문서를 잘 읽고, 찾아내고, 계산하는' 능력이 필요하다"**고 말합니다.
현재 AI 는 지식은 많지만, **실무 (Grounded Reasoning)**에서는 아직 초보 수준입니다. 하지만 **문서를 AI 가 읽기 쉽게 정리해 주는 기술 (Parsing)**을 도입하면 성능이 크게 좋아진다는 희망적인 메시지를 전합니다.
한 줄 요약:
"AI 가 기업에서 일하려면, 머리가 좋은 것만으로는 부족하고 복잡한 문서 더미를 깔끔하게 정리해 주는 비서가 필요하며, 아직은 인간 전문가를 완전히 대체할 수는 없지만 빠르게 성장하고 있다."