Each language version is independently generated for its own context, not a direct translation.
📄 MoDora: 복잡한 문서의 숨겨진 보물을 찾는 '지능형 탐정'
이 논문은 MoDora라는 새로운 시스템을 소개합니다. 쉽게 말해, MoDora 는 **복잡하게 섞여 있는 문서 (표, 차트, 글, 그림이 뒤섞인 것) 를 읽고 질문에 답하는 '초능력의 문서 분석가'**입니다.
기존의 방법들은 이 복잡한 문서들을 읽을 때 큰 실수를 많이 저질렀는데, MoDora 는 그 실수를 해결하기 위해 고안된 3 단계 전략을 사용합니다.
🕵️♂️ 왜 MoDora 가 필요한가요? (기존 방법의 문제점)
상상해 보세요. 거대한 도서관에 들어갔는데, 책장이 무너져서 책들이 바닥에 흩어져 있고, 책장 번호도 엉망이 되어 있다고 가정해 봅시다.
- 조각난 퍼즐 (OCR 의 한계): 기존 기술들은 문서를 읽을 때 글자만 쏙쏙 뽑아내서 (OCR) 바닥에 흩어뜨려 놓습니다. 글자는 있지만, "이 글자는 이 표의 설명이다", "이 그림은 이 챕터의 내용이다"라는 연결고리가 끊겨버립니다.
- 지도가 없는 미로 (구조 이해 실패): 문서에는 '제 1 장', '제 2 장'처럼 계층 구조가 있는데, 기존 기술들은 이를 무시하고 모든 글을 한 줄로 나열해 버립니다. 마치 건물의 층수를 무시하고 모든 방을 지하에 쌓아놓은 것과 같습니다.
- 찾아내지 못하는 보물 (정보 연결 실패): "겨울철에 실험한 결과"를 찾으려면, 1 페이지의 글에서 '겨울'이라는 단어를 찾고, 2 페이지의 표에서 해당 데이터를 찾아야 합니다. 기존 기술들은 이 두 가지를 서로 다른 방에 있는 보물처럼 취급해서 연결하지 못합니다.
🌳 MoDora 의 3 단계 마법 (해결책)
MoDora 는 이 혼란스러운 도서관을 **정리된 나무 (Tree)**로 재구성합니다.
1 단계: 조각난 퍼즐을 '완성된 블록'으로 만들기 (컴포넌트 생성)
- 비유: 바닥에 흩어진 퍼즐 조각들을 **주제별로 묶어서 '완성된 그림'**으로 만듭니다.
- 작동 원리: MoDora 는 문서의 글자, 표, 그림을 따로따로 보지 않습니다. 대신, "이 제목 아래에 있는 글들"이나 "이 표와 그 옆의 설명"을 하나로 묶어 **자기 완결적인 '블록 (Component)'**으로 만듭니다.
- 예: "Abstract(초록)"이라는 제목과 그 아래 글들을 하나로 묶고, "Table 1(표 1)"과 그 제목을 하나로 묶습니다.
2 단계: 도서관을 '가계도 나무'로 만들기 (CCTree)
- 비유: 이제 이 블록들을 **가계도 (Family Tree)**처럼 정리합니다.
- 작동 원리: MoDora 는 이 블록들을 **CCTree(컴포넌트 상관관계 나무)**라는 구조로 만듭니다.
- 상위 노드: 큰 제목 (예: "서론")
- 하위 노드: 그 아래에 속한 내용 (예: "실험 설계", "결과 표")
- 별개의 가지: 페이지 번호나 머리글 같은 부수적인 정보는 주나무에서 분리된 작은 가지로 따로 정리하여 혼란을 막습니다.
- 요약 기능: 나무의 아래쪽 (세부 내용) 에서 위쪽 (큰 제목) 으로 올라가며 내용을 간단히 요약합니다. 마치 "이 가지는 실험 결과에 관한 내용이야"라고 나무 꼭대기에 라벨을 붙이는 것과 같습니다.
3 단계: 질문에 맞는 '정밀한 사냥' (검색 전략)
- 비유: 이제 질문을 받으면, 질문의 종류에 따라 다른 사냥 도구를 사용합니다.
- 작동 원리:
- 위치 질문 (예: "1 페이지 오른쪽 아래에 뭐가 있어?"): 나무의 **위치 정보 (좌표)**를 보고 바로 찾습니다.
- 의미 질문 (예: "겨울철 실험 결과는?"):
- LLM 이 먼저 훑어보기: 제목과 요약만 보고 "아마 여기일 거야"라고 후보를 추립니다.
- 검색 엔진이 보충: 놓친 것이 있을까 봐 검색 엔진도 함께 돌려서 후보를 더 찾습니다.
- 검증관 (Verifier) 이 최종 확인: 최종 후보들을 다시 자세히 읽어보고, "이게 정말 정답이야?"라고 검증합니다.
🏆 MoDora 의 성과
실험 결과, MoDora 는 기존 최고의 기술들보다 정확도가 6% 에서 무려 61% 까지 높아졌습니다.
- 기존 기술 (ZenDB, GPT-5 등): 문서의 구조를 무시하거나, 표와 글의 연결을 못 해서 엉뚱한 답을 내놓거나, 아예 답을 못 찾았습니다.
- MoDora: 문서의 **구조 (나무)**와 위치 (지도), **내용 (요약)**을 모두 이해해서, 복잡한 질문에도 정확한 답을 찾아냅니다.
💡 한 줄 요약
MoDora는 흩어진 문서 조각들을 질서 정연한 나무로 재구성하고, 질문 유형에 맞춰 똑똑하게 검색함으로써, 복잡한 문서에서도 정확한 답을 찾아내는 차세대 문서 분석 시스템입니다.
이 시스템은 과학 논문, 재무 보고서, 기술 매뉴얼처럼 글, 표, 그림이 뒤섞인 복잡한 문서를 다룰 때 특히 빛을 발합니다.