Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

이 논문은 단일 회수 retrieval 의 한계를 극복하고 반복적인 도구 호출 루프를 통해 복잡한 스프레드시트의 이해와 편집을 가능하게 하는 멀티모달 에이전트 프레임워크 'Beyond Rows to Reasoning(BRTR)'을 제안하며, 다양한 벤치마크에서 기존 방법론을 크게 상회하는 성능을 입증했습니다.

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대한 엑셀 파일을 한 번에 다 읽으려다 지쳐버리는 AI 를 대신해, 전문가처럼 차근차근 조사하고 수정하는 새로운 AI 비서 (BRTR)"**를 소개합니다.

기존의 AI 는 방대한 데이터를 한 번에 쏙 집어넣으려다 (압축하거나 전체를 읽으려다) 중요한 정보를 놓치거나, 너무 많은 정보에 압도되어 엉뚱한 답을 내놓곤 했습니다. 이 논문은 그 문제를 해결하기 위해 AI 에게 '조사원'의 능력을 부여했습니다.

이 내용을 일상적인 비유로 설명해 드릴게요.


1. 문제 상황: "모든 책을 한 번에 읽으려다 뇌가 터진 도서관 사서"

상상해 보세요. 전 세계의 모든 도서관 책 (수백만 개의 엑셀 셀, 여러 시트의 데이터, 그림 등) 을 한 번에 읽으라고 도서관 사서 (AI) 에게 시켰다고 칩시다.

  • 기존 방식 (단순 검색/압축): 사서가 책 전체를 빠르게 훑어보거나, 책 내용을 요약본으로 줄여서 읽으려 합니다. 하지만 중요한 '페이지 342 의 작은 각주'나 '다른 책과 연결된 참고 문헌'을 놓치기 쉽습니다.
  • 결과: 질문이 복잡해지면 (예: "A 회사의 2023 년 매출과 B 회사의 마케팅 비용 관계를 2022 년 세금 보고서와 비교해줘"), 사서는 정보가 부족하거나 너무 많아서 엉뚱한 답을 내놓거나, 아예 "모르겠습니다"라고 말합니다.

2. 해결책: "현명한 탐정 BRTR (Beyond Rows to Reasoning)"

이 논문이 제안한 BRTR은 단순히 책을 읽는 사서가 아니라, **현장 조사에 나서는 '탐정'**과 같습니다.

  • 한 번에 다 보지 않음 (반복적 조사):
    탐정은 처음부터 모든 책을 다 읽지 않습니다. "어디서 시작해야 할까?"라고 생각하며 도구를 하나씩 꺼냅니다.

    • "일단 2023 년 매출 시트만 찾아보자." (검색 도구 사용)
    • "아, 여기서 숫자가 이상하네. 그럼 관련 그림 (차트) 을 찾아보자." (이미지 검색 도구 사용)
    • "이 숫자가 B 회사 데이터랑 연결되네. 다른 시트로 넘어가서 확인해보자." (교차 참조)
    • 핵심: 답이 나올 때까지 질문 → 검색 → 확인 → 다시 질문을 반복합니다.
  • 실수 방지 (계획 수립):
    복잡한 업무 (예: "세금 계산하고, 그래프 그리고, PDF 로 저장해줘") 가 들어오면, 탐정은 한 번에 다 하려 하지 않고 **작업 목록 (플랜)**을 짭니다.

    1. 데이터 추출
    2. 계산 수행
    3. 그래프 생성
    4. 파일 저장
      이렇게 단계별로 나누어 실수가 쌓이는 것을 막습니다.
  • 메모 관리 (컨텍스트 정리):
    조사하다 보면 메모지가 너무 많아집니다. BRTR 은 이미 확인한 그림 데이터는 메모에서 지우고, 중요한 숫자만 남기는 지혜를 발휘합니다. 그래서 AI 의 기억 공간 (메모리) 이 꽉 차서 미쳐버리는 것을 막습니다.

3. 왜 이것이 혁신적인가요? (성공 사례)

이 '탐정 AI'를 실제 시험 (벤치마크) 에 통과시켜 보니 놀라운 결과가 나왔습니다.

  • 정확도 대폭 상승: 기존 방식이 7080% 정도 맞췄다면, BRTR 은 **9899%**까지 정확도를 높였습니다. 특히 복잡한 기업 데이터를 다룰 때 그 차이가 극명했습니다.
  • 어떤 AI 모델이 가장 잘할까?
    • NVIDIA NeMo: 엑셀의 숫자와 그림을 섞어서 이해하는 '검색 능력'이 가장 뛰어났습니다.
    • GPT-5.2: 가장 똑똑한 '두뇌'를 가져서, 복잡한 추론을 빠르고 정확하게 처리하면서도 비용 (연산량) 을 아끼는 가성비 최고 모델로 선정되었습니다.

4. 요약: 일상 언어로 정리하면?

"기존 AI 는 거대한 엑셀 파일을 한 번에 통째로 삼키려다 소화불량이 와서 엉뚱한 답을 냈어요.

하지만 BRTR현명한 조사관처럼 행동해요.

  1. 질문을 받으면, 필요한 자료만 하나씩 찾아 (검색 도구)
  2. 확인하고,
  3. 모자라면 다시 찾아 (반복 조사)
  4. 단계별로 계획을 세워 (플랜)
  5. 정확한 답을 내줍니다.

마치 복잡한 사건을 해결하는 탐정처럼, AI 가 실수 없이 엑셀 파일을 분석하고 수정할 수 있게 만든 것입니다."

이 기술은 이제 단순한 데이터 읽기를 넘어, 실제 기업 업무에서 복잡한 엑셀 파일을 분석하고, 수정하고, 보고서를 만드는 것까지 AI 가 스스로 해낼 수 있는 시대를 열었습니다.