CMRAG: Co-modality-based visual document retrieval and question answering

이 논문은 기존 멀티모달 문서 기반 질문 응답 시스템의 한계를 극복하기 위해 텍스트와 이미지를 통합적으로 활용하는 'CMRAG' 프레임워크와 대규모 삼중항 데이터셋을 제안하여, 다양한 시각 문서 질문 응답 벤치마크에서 단일 모달리티 기반 방법보다 우수한 성능을 입증했습니다.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 기존 AI 들의 실수 (과거의 도서관 사서들)

지금까지 AI 가 문서를 읽을 때는 두 가지 방식 중 하나만 사용했습니다. 하지만 둘 다 문제가 있었죠.

  • 방식 A (텍스트만 보는 사서):
    • 상황: AI 가 문서의 글자만 뽑아내서 읽습니다. (OCR 기술 사용)
    • 문제: 그림, 차트, 표, 복잡한 레이아웃이 있는 문서는 "글자"로 변환할 수 없거나 의미가 깨집니다. 마치 책의 내용만 읽은 채로, 책에 그려진 중요한 지도나 사진을 무시하고 설명하는 것과 같습니다.
  • 방식 B (이미지만 보는 사서):
    • 상황: AI 가 문서 전체를 사진처럼 보고 이해합니다. (시각 언어 모델 사용)
    • 문제: 글자가 너무 많거나 작으면 AI 가 글자를 정확히 읽지 못합니다. 마치 사진을 한눈에 훑어보는데, 중요한 숫자나 작은 글씨를 놓치는 것과 같습니다.

2. 해결책: CMRAG (두 가지 능력을 모두 갖춘 조사관)

저자들은 **"왜 하나만 고집하나요? 두 가지를 모두 쓰면 안 되나요?"**라고 생각했습니다. 그래서 CMRAG를 만들었습니다.

이것은 **글자 (텍스트) 와 그림 (이미지) 을 동시에 보는 '초능력 조사관'**과 같습니다.

  • 동시 작업: 질문이 들어오면, 조사관은 문서의 글자 내용도 읽으면서 동시에 그림과 표도 봅니다.
  • 비유: 마치 복도 (이미지) 를 훑어보면서 동시에 책장 (텍스트) 의 제목도 확인하는 것과 같습니다. 그래서 "어디에 뭐가 있는지"를 정확히 찾아냅니다.

3. 핵심 기술: 두 가지 비법

이 조사관이 어떻게 그렇게 똑똑해질 수 있었을까요? 두 가지 비법이 있습니다.

① 통일된 언어 번역기 (UEM - Unified Encoding Model)

  • 상황: 글자는 '한국어'로, 그림은 '영어'로 되어 있는 것처럼 서로 다른 언어로 되어 있어 AI 가 혼란을 겪습니다.
  • 해결: CMRAG 는 질문, 글자, 그림을 모두 **하나의 공통된 언어 (공유된 공간)**로 번역합니다.
  • 비유: 서로 다른 말을 하는 사람들과 대화할 때, 모두 **영어 (공통 언어)**로 통역해 주는 통역사가 있는 셈입니다. 그래서 질문과 문서의 글자, 그리고 그림이 서로 완벽하게 연결됩니다.

② 점수 맞추기 게임의 공정한 심판 (UCMR - Unified Co-modality Retrieval)

  • 상황: 글자 점수와 그림 점수를 합치려는데, 기준이 다릅니다. (예: 글자 점수는 0100 점인데, 그림 점수는 010 점이라서 합치면 안 됨)
  • 해결: AI 는 이 점수들을 **공정한 기준 (통계적 정규화)**으로 맞춰줍니다.
  • 비유: 키가 큰 사람과 작은 사람의 키를 비교할 때, 단순히 'cm'로만 재지 않고 **자신의 평균 키 대비 얼마나 큰지 (백분위)**로 비교하는 것과 같습니다. 이렇게 해야 글자 점수와 그림 점수를 합쳐서 "어떤 문서가 가장 관련 있는지"를 정확히 판단할 수 있습니다.

4. 왜 이것이 중요한가요? (실생활 예시)

이 기술이 있으면 어떤 일이 가능할까요?

  • 기업 보고서 분석: "2023 년 매출이 어떻게 변했나요?"라고 물으면, AI 는 글자만 읽지 않고 **매출이 적힌 표 (그림)**와 **그걸 설명하는 문장 (글자)**을 동시에 보고 정확한 숫자를 찾아냅니다.
  • 기술 매뉴얼: "이 기계가 고장 난 이유는?"이라고 물으면, 고장 난 부위의 사진해당 부분의 설명 글을 함께 보고 정확한 원인을 찾아냅니다.

5. 결론

이 논문은 **"글자만 보거나 그림만 보는 것은 불완전하다"**는 것을 증명했습니다. CMRAG는 이 두 가지를 하나로 합쳐서, AI 가 복잡한 문서를 인간처럼 더 정확하게 이해하고 답할 수 있게 만들었습니다.

한 줄 요약:

**"글자도 읽고 그림도 보는, 두 눈과 두 귀를 모두 갖춘 똑똑한 AI 조사관"**을 만들어서, 복잡한 문서에서 정답을 찾는 속도와 정확도를 높였습니다.