MoDora: Tree-Based Semi-Structured Document Analysis System

MoDora 는 OCR 로 추출된 파편화된 요소를 레이아웃 인식 구성 요소로 통합하고, 계층적 구조와 레이아웃 차이를 명시적으로 모델링하는 '구성 요소 상관관계 트리 (CCTree)'를 구축하며, 질문 유형에 따라 최적화된 검색 전략을 적용함으로써 복잡한 반정형 문서에 대한 자연어 질문 응답 성능을 획기적으로 향상시키는 LLM 기반 분석 시스템입니다.

Bangrui Xu, Qihang Yao, Zirui Tang, Xuanhe Zhou, Yeye He, Shihan Yu, Qianqian Xu, Bin Wang, Guoliang Li, Conghui He, Fan Wu

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📄 MoDora: 복잡한 문서의 숨겨진 보물을 찾는 '지능형 탐정'

이 논문은 MoDora라는 새로운 시스템을 소개합니다. 쉽게 말해, MoDora 는 **복잡하게 섞여 있는 문서 (표, 차트, 글, 그림이 뒤섞인 것) 를 읽고 질문에 답하는 '초능력의 문서 분석가'**입니다.

기존의 방법들은 이 복잡한 문서들을 읽을 때 큰 실수를 많이 저질렀는데, MoDora 는 그 실수를 해결하기 위해 고안된 3 단계 전략을 사용합니다.


🕵️‍♂️ 왜 MoDora 가 필요한가요? (기존 방법의 문제점)

상상해 보세요. 거대한 도서관에 들어갔는데, 책장이 무너져서 책들이 바닥에 흩어져 있고, 책장 번호도 엉망이 되어 있다고 가정해 봅시다.

  1. 조각난 퍼즐 (OCR 의 한계): 기존 기술들은 문서를 읽을 때 글자만 쏙쏙 뽑아내서 (OCR) 바닥에 흩어뜨려 놓습니다. 글자는 있지만, "이 글자는 이 표의 설명이다", "이 그림은 이 챕터의 내용이다"라는 연결고리가 끊겨버립니다.
  2. 지도가 없는 미로 (구조 이해 실패): 문서에는 '제 1 장', '제 2 장'처럼 계층 구조가 있는데, 기존 기술들은 이를 무시하고 모든 글을 한 줄로 나열해 버립니다. 마치 건물의 층수를 무시하고 모든 방을 지하에 쌓아놓은 것과 같습니다.
  3. 찾아내지 못하는 보물 (정보 연결 실패): "겨울철에 실험한 결과"를 찾으려면, 1 페이지의 글에서 '겨울'이라는 단어를 찾고, 2 페이지의 표에서 해당 데이터를 찾아야 합니다. 기존 기술들은 이 두 가지를 서로 다른 방에 있는 보물처럼 취급해서 연결하지 못합니다.

🌳 MoDora 의 3 단계 마법 (해결책)

MoDora 는 이 혼란스러운 도서관을 **정리된 나무 (Tree)**로 재구성합니다.

1 단계: 조각난 퍼즐을 '완성된 블록'으로 만들기 (컴포넌트 생성)

  • 비유: 바닥에 흩어진 퍼즐 조각들을 **주제별로 묶어서 '완성된 그림'**으로 만듭니다.
  • 작동 원리: MoDora 는 문서의 글자, 표, 그림을 따로따로 보지 않습니다. 대신, "이 제목 아래에 있는 글들"이나 "이 표와 그 옆의 설명"을 하나로 묶어 **자기 완결적인 '블록 (Component)'**으로 만듭니다.
    • 예: "Abstract(초록)"이라는 제목과 그 아래 글들을 하나로 묶고, "Table 1(표 1)"과 그 제목을 하나로 묶습니다.

2 단계: 도서관을 '가계도 나무'로 만들기 (CCTree)

  • 비유: 이제 이 블록들을 **가계도 (Family Tree)**처럼 정리합니다.
  • 작동 원리: MoDora 는 이 블록들을 **CCTree(컴포넌트 상관관계 나무)**라는 구조로 만듭니다.
    • 상위 노드: 큰 제목 (예: "서론")
    • 하위 노드: 그 아래에 속한 내용 (예: "실험 설계", "결과 표")
    • 별개의 가지: 페이지 번호나 머리글 같은 부수적인 정보는 주나무에서 분리된 작은 가지로 따로 정리하여 혼란을 막습니다.
    • 요약 기능: 나무의 아래쪽 (세부 내용) 에서 위쪽 (큰 제목) 으로 올라가며 내용을 간단히 요약합니다. 마치 "이 가지는 실험 결과에 관한 내용이야"라고 나무 꼭대기에 라벨을 붙이는 것과 같습니다.

3 단계: 질문에 맞는 '정밀한 사냥' (검색 전략)

  • 비유: 이제 질문을 받으면, 질문의 종류에 따라 다른 사냥 도구를 사용합니다.
  • 작동 원리:
    • 위치 질문 (예: "1 페이지 오른쪽 아래에 뭐가 있어?"): 나무의 **위치 정보 (좌표)**를 보고 바로 찾습니다.
    • 의미 질문 (예: "겨울철 실험 결과는?"):
      1. LLM 이 먼저 훑어보기: 제목과 요약만 보고 "아마 여기일 거야"라고 후보를 추립니다.
      2. 검색 엔진이 보충: 놓친 것이 있을까 봐 검색 엔진도 함께 돌려서 후보를 더 찾습니다.
      3. 검증관 (Verifier) 이 최종 확인: 최종 후보들을 다시 자세히 읽어보고, "이게 정말 정답이야?"라고 검증합니다.

🏆 MoDora 의 성과

실험 결과, MoDora 는 기존 최고의 기술들보다 정확도가 6% 에서 무려 61% 까지 높아졌습니다.

  • 기존 기술 (ZenDB, GPT-5 등): 문서의 구조를 무시하거나, 표와 글의 연결을 못 해서 엉뚱한 답을 내놓거나, 아예 답을 못 찾았습니다.
  • MoDora: 문서의 **구조 (나무)**와 위치 (지도), **내용 (요약)**을 모두 이해해서, 복잡한 질문에도 정확한 답을 찾아냅니다.

💡 한 줄 요약

MoDora는 흩어진 문서 조각들을 질서 정연한 나무로 재구성하고, 질문 유형에 맞춰 똑똑하게 검색함으로써, 복잡한 문서에서도 정확한 답을 찾아내는 차세대 문서 분석 시스템입니다.

이 시스템은 과학 논문, 재무 보고서, 기술 매뉴얼처럼 글, 표, 그림이 뒤섞인 복잡한 문서를 다룰 때 특히 빛을 발합니다.