LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding

이 논문은 시각적으로 풍부한 문서의 구조적 조직과 교차 페이지 의존성을 포착하는 심볼릭 문서 그래프를 구축하고 추론 시 LLM 에이전트를 통해 적응적으로 증거를 검색하는 새로운 레이아웃 인식 동적 RAG 프레임워크인 'LAD-RAG'를 제안하여 기존 방법의 한계를 극복하고 질문 응답 정확도를 크게 향상시킨다고 설명합니다.

Zhivar Sourati, Zheng Wang, Marianne Menglin Liu, Yazhe Hu, Mengqing Guo, Sujeeth Bharadwaj, Kyu Han, Tao Sheng, Sujith Ravi, Morteza Dehghani, Dan Roth

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

LAD-RAG: 문서의 '지도'를 그려주는 똑똑한 비서

이 논문은 시각적으로 풍부한 문서(예: 보고서, 슬라이드, 차트가 많은 PDF) 를 읽고 질문에 답할 때, 기존 AI 가 겪는 문제를 해결한 새로운 방법인 LAD-RAG를 소개합니다.

기존의 AI 비서들이 문서를 읽을 때 어떤 실수를 했는지, 그리고 LAD-RAG 가 어떻게 그 문제를 해결하는지 일상적인 비유로 설명해 드릴게요.


1. 기존 AI 의 문제: "조각난 퍼즐"과 "고정된 안경"

기존의 문서 검색 시스템 (RAG) 은 문서를 읽을 때 두 가지 큰 실수를 저지릅니다.

  • 실수 1: 문맥을 잃어버린 조각들 (Loss of Layout)

    • 비유: 문서를 읽는다는 것이 마치 퍼즐 조각을 하나씩 잘라내어 무작정 가방에 넣는 것과 같습니다.
    • 문제: "이 보고서의 10 페이지에 있는 차트와 12 페이지의 결론을 연결해줘"라고 물으면, 기존 AI 는 10 페이지와 12 페이지가 서로 연결되어 있다는 걸 모릅니다. 조각만 보고 있으니, 10 페이지의 차트만 가져와서 "결론은 모르겠다"라고 답하거나, 아예 엉뚱한 조각을 가져옵니다.
    • 결과: 중요한 정보가 문서의 구조 (레이아웃) 나 페이지 간 연결고리에 숨어있을 때, AI 는 그걸 찾아내지 못해 엉뚱한 답을 합니다.
  • 실수 2: 고정된 안경 (Static Top-k)

    • 비유: 질문의 난이도와 상관없이 항상 같은 수의 책장 (예: 5 장) 만 뒤지는 것입니다.
    • 문제: "오늘 날씨 어때?" 같은 쉬운 질문에는 1 장만 봐도 되는데, "이 보고서 전체의 흐름을 분석해줘" 같은 어려운 질문에는 50 장을 다 봐야 합니다. 그런데 기존 시스템은 무조건 5 장만 가져와서 답을 하려고 하니까, 중요한 정보가 빠져버립니다.

2. LAD-RAG 의 해결책: "지능형 도서관 사서"

LAD-RAG 는 이 문제를 해결하기 위해 문서를 단순히 텍스트로 저장하는 게 아니라, '지도 (Graph)'를 만들어서 저장합니다.

단계 1: ingestion (문서 읽기 & 지도 그리기)

  • 기존 방식: 문서를 텍스트로 잘게 잘라서 숫자 (벡터) 로 변환해 저장.
  • LAD-RAG 방식:
    • AI 가 문서를 한 장씩 읽으면서 문서의 구조를 파악합니다.
    • "이 제목은 이 단락의 머리글이야", "이 차트는 3 페이지의 결론과 연결돼", "이 표는 5 페이지의 데이터와 관련이 있어"라고 문서 내부의 관계 (엣지) 를 모두 연결합니다.
    • 비유: 마치 도서관 사서가 책을 읽으면서 책의 목차, 페이지 간 참조, 그림과 설명의 연결고리를 모두 적어낸 '초정밀 지도'를 그리는 것과 같습니다. 이 지도에는 텍스트 내용뿐만 아니라 "어디에 있는가", "무엇과 연결되는가"라는 정보도 담깁니다.

단계 2: inference (질문 받고 답하기)

  • 기존 방식: 질문과 비슷한 단어만 가진 문서를 5 개 찾아서 보여줌.
  • LAD-RAG 방식:
    • **스마트 비서 (LLM Agent)**가 질문을 받습니다.
    • 비서는 "이 질문은 3 페이지의 차트와 5 페이지의 결론을 연결해야 해"라고 판단합니다.
    • 그리고 **지도 (Symbolic Graph)**와 **내용 (Neural Index)**을 동시에 봅니다.
    • 동적 탐색: "아, 이 질문은 5 장만 봐서는 안 되겠네. 3 페이지부터 12 페이지까지 연결된 모든 조각을 찾아야겠다"라고 스스로 판단하여 필요한 만큼의 정보를 찾아냅니다.
    • 비유: 사용자가 "내 여행 계획서에서 비행기 티켓과 호텔 예약을 모두 찾아줘"라고 하면, 기존 비서는 '비행기'라는 단어만 찾아서 티켓만 가져오지만, LAD-RAG 비서는 '여행 계획서'라는 지도를 펼쳐서 티켓과 호텔이 서로 어떻게 연결되어 있는지 파악한 뒤, 두 정보를 모두 찾아서 가져옵니다.

3. 왜 이것이 중요한가요? (결과)

이 방법을 쓰니 놀라운 결과가 나왔습니다.

  1. 완벽한 기억력 (90% 이상 Perfect Recall):
    • 중요한 정보가 문서의 어느 구석에 숨어있든, 누락 없이 모두 찾아냅니다. 마치 도서관 사서가 책장 전체를 훑어보며 필요한 책과 그 책의 참고 문헌까지 모두 찾아주는 것과 같습니다.
  2. 불필요한 정보 제거:
    • 필요한 정보만 정확히 찾아내므로, AI 가 헛된 정보 (노이즈) 를 보지 않아도 되어 답변의 정확도가 훨씬 높아집니다.
  3. 빠른 속도:
    • 복잡한 계산을 실시간으로 하지 않고, 미리 그려둔 '지도'를 활용하므로 속도도 느려지지 않습니다.

요약

LAD-RAG는 문서를 읽을 때 단순히 글자만 읽는 게 아니라, 문서의 구조와 페이지 간의 관계를 '지도'로 그려서 기억합니다. 그리고 질문에 답할 때는 그 지도를 보고 질문의 난이도에 맞춰 필요한 만큼의 정보를 찾아내는 똑똑한 비서 역할을 합니다.

이 덕분에 AI 는 이제 복잡한 보고서나 긴 문서를 다룰 때, 인간처럼 문맥을 이해하고 연결해서 더 정확한 답을 줄 수 있게 되었습니다.