CMRAG: Co-modality-based visual document retrieval and question answering

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 기존 AI 들의 실수 (과거의 도서관 사서들)

지금까지 AI 가 문서를 읽을 때는 두 가지 방식 중 하나만 사용했습니다. 하지만 둘 다 문제가 있었죠.

방식 A (텍스트만 보는 사서):
- 상황: AI 가 문서의 글자만 뽑아내서 읽습니다. (OCR 기술 사용)
- 문제: 그림, 차트, 표, 복잡한 레이아웃이 있는 문서는 "글자"로 변환할 수 없거나 의미가 깨집니다. 마치 책의 내용만 읽은 채로, 책에 그려진 중요한 지도나 사진을 무시하고 설명하는 것과 같습니다.
방식 B (이미지만 보는 사서):
- 상황: AI 가 문서 전체를 사진처럼 보고 이해합니다. (시각 언어 모델 사용)
- 문제: 글자가 너무 많거나 작으면 AI 가 글자를 정확히 읽지 못합니다. 마치 사진을 한눈에 훑어보는데, 중요한 숫자나 작은 글씨를 놓치는 것과 같습니다.

2. 해결책: CMRAG (두 가지 능력을 모두 갖춘 조사관)

저자들은 **"왜 하나만 고집하나요? 두 가지를 모두 쓰면 안 되나요?"**라고 생각했습니다. 그래서 CMRAG를 만들었습니다.

이것은 **글자 (텍스트) 와 그림 (이미지) 을 동시에 보는 '초능력 조사관'**과 같습니다.

동시 작업: 질문이 들어오면, 조사관은 문서의 글자 내용도 읽으면서 동시에 그림과 표도 봅니다.
비유: 마치 복도 (이미지) 를 훑어보면서 동시에 책장 (텍스트) 의 제목도 확인하는 것과 같습니다. 그래서 "어디에 뭐가 있는지"를 정확히 찾아냅니다.

3. 핵심 기술: 두 가지 비법

이 조사관이 어떻게 그렇게 똑똑해질 수 있었을까요? 두 가지 비법이 있습니다.

① 통일된 언어 번역기 (UEM - Unified Encoding Model)

상황: 글자는 '한국어'로, 그림은 '영어'로 되어 있는 것처럼 서로 다른 언어로 되어 있어 AI 가 혼란을 겪습니다.
해결: CMRAG 는 질문, 글자, 그림을 모두 **하나의 공통된 언어 (공유된 공간)**로 번역합니다.
비유: 서로 다른 말을 하는 사람들과 대화할 때, 모두 **영어 (공통 언어)**로 통역해 주는 통역사가 있는 셈입니다. 그래서 질문과 문서의 글자, 그리고 그림이 서로 완벽하게 연결됩니다.

② 점수 맞추기 게임의 공정한 심판 (UCMR - Unified Co-modality Retrieval)

상황: 글자 점수와 그림 점수를 합치려는데, 기준이 다릅니다. (예: 글자 점수는 0~~100 점인데, 그림 점수는 0~~10 점이라서 합치면 안 됨)
해결: AI 는 이 점수들을 **공정한 기준 (통계적 정규화)**으로 맞춰줍니다.
비유: 키가 큰 사람과 작은 사람의 키를 비교할 때, 단순히 'cm'로만 재지 않고 **자신의 평균 키 대비 얼마나 큰지 (백분위)**로 비교하는 것과 같습니다. 이렇게 해야 글자 점수와 그림 점수를 합쳐서 "어떤 문서가 가장 관련 있는지"를 정확히 판단할 수 있습니다.

4. 왜 이것이 중요한가요? (실생활 예시)

이 기술이 있으면 어떤 일이 가능할까요?

기업 보고서 분석: "2023 년 매출이 어떻게 변했나요?"라고 물으면, AI 는 글자만 읽지 않고 **매출이 적힌 표 (그림)**와 **그걸 설명하는 문장 (글자)**을 동시에 보고 정확한 숫자를 찾아냅니다.
기술 매뉴얼: "이 기계가 고장 난 이유는?"이라고 물으면, 고장 난 부위의 사진과 해당 부분의 설명 글을 함께 보고 정확한 원인을 찾아냅니다.

5. 결론

이 논문은 **"글자만 보거나 그림만 보는 것은 불완전하다"**는 것을 증명했습니다. CMRAG는 이 두 가지를 하나로 합쳐서, AI 가 복잡한 문서를 인간처럼 더 정확하게 이해하고 답할 수 있게 만들었습니다.

한 줄 요약:

**"글자도 읽고 그림도 보는, 두 눈과 두 귀를 모두 갖춘 똑똑한 AI 조사관"**을 만들어서, 복잡한 문서에서 정답을 찾는 속도와 정확도를 높였습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: CMRAG (Co-modality 기반 시각 문서 검색 및 질문 응답)

1. 연구 배경 및 문제 정의 (Problem)

최근 Retrieval-Augmented Generation (RAG) 은 문서 기반 질문 응답 (QA) 의 핵심 패러다임으로 자리 잡았으나, 다중 모달 (Multimodal) 문서를 처리하는 데에는 한계가 존재합니다. 기존 방법론은 크게 두 가지로 나뉘며 각각의 치명적인 약점이 있습니다.

텍스트 기반 RAG: 레이아웃 분석과 OCR 을 통해 텍스트만 추출하여 사용합니다. 이는 명시적인 텍스트 정보에는 강하지만, 이미지, 표, 수식 등 비구조화된 콘텐츠의 의미 정보를 놓치기 쉽습니다.
이미지 기반 RAG: 문서 페이지를 이미지로 직접 시각 언어 모델 (VLM) 에 입력합니다. 이는 비텍스트 정보를 포착하지만, 텍스트가 가진 정밀한 의미 정보를 간과하여 검색 및 생성 성능이 저하될 수 있습니다.

이러한 한계를 극복하기 위해, 텍스트와 이미지를 동시에 활용 (Co-modality) 하여 더 정확한 검색과 생성이 가능한 새로운 프레임워크가 필요합니다.

2. 제안 방법론 (Methodology)

저자들은 CMRAG (Co-Modality–based RAG) 프레임워크를 제안하며, 이는 텍스트와 이미지 모달리티를 통합하여 시각 문서 QA 를 수행합니다. 핵심 구성 요소는 다음과 같습니다.

가. 통합 인코딩 모델 (Unified Encoding Model, UEM)

구조: 쿼리, 파싱된 텍스트, 이미지 세 가지 모달리티를 공유된 잠재 공간 (Shared Latent Space) 으로 매핑합니다.
백본: SigLIP 기반의 아키텍처를 사용하며, 쿼리 인코더 ( $E_q$ ) 와 이미지 인코더 ( $E_I$ ) 는 사전 학습된 SigLIP 모델을 재사용하고, 텍스트 인코더 ( $E_T$ ) 는 쿼리 인코더를 기반으로 확장하여 긴 문서 텍스트를 처리할 수 있도록 초기화합니다.
학습 목표: Dual-Sigmoid Alignment (DSA) 손실 함수를 사용하여 쿼리 - 텍스트 쌍과 쿼리 - 이미지 쌍을 정렬합니다. 텍스트 인코더만 학습시키고 다른 인코더는 고정 (Frozen) 하여 사전 학습된 정렬 능력을 유지하면서도 통합 공간을 구축합니다.

나. 통합 Co-모달리티 기반 검색 (Unified Co-Modality–informed Retrieval, UCMR)

문제: 텍스트와 이미지의 유사도 점수 분포가 서로 달라 단순 가중 합산 시 최적의 결과를 얻기 어렵습니다.
해결책:
1. 시그모이드 정규화: 내적 점수를 $[0, 1]$ 범위로 변환합니다.
2. Z-score 정규화: 변환된 점수의 분포를 평균 0, 분산 1 인 표준 정규 분포로 맞춥니다.
3. 통합 점수 산출: 정규화된 텍스트 및 이미지 유사도 점수를 가중치 ( $\beta$ ) 를 통해 결합하여 최종 검색 점수를 도출합니다. 이를 통해 모달리티 간의 분포 불일치를 해소하고 효과적인 융합을 가능하게 합니다.

다. 생성 단계

검색된 텍스트와 이미지 증거 (Evidence) 를 VLM 생성기에 입력하여 최종 답변을 생성합니다.

3. 주요 기여 (Key Contributions)

CMRAG 프레임워크 제안: 텍스트와 이미지 표현을 동시에 활용하여 시각 문서의 검색 및 생성 성능을 획기적으로 개선하는 새로운 RAG 프레임워크를 제시했습니다.
UEM 및 UCMR 개발: 단일 인코더 세트를 사용하여 통합 임베딩 공간을 생성하는 모델과, 통계적 정규화를 통해 모달리티 간 점수 융합 문제를 해결하는 검색 방법을 고안했습니다.
대규모 데이터셋 공개: 오픈 소스 시각 문서 코퍼스에서 추출한 대규모 (쿼리, 텍스트, 이미지) 3 중항 (Triplet) 데이터셋을 구축하여 공개했습니다. 이는 향후 Co-모달리티 학습 연구의 기반을 제공합니다.
광범위한 실험 검증: 여러 VDQA 벤치마크에서 단일 모달리티 기반 RAG 를 일관되게 능가하는 성능을 입증했습니다.

4. 실험 결과 (Results)

검색 성능 (Retrieval): MMLongBench, REAL-MM-RAG, LongDocURL 등 6 가지 벤치마크에서 제안된 CMRAG-R 은 기존 BGE(텍스트 전용), CLIP, SigLIP(이미지 전용) 등의 강력한 베이스라인을 능가했습니다. 특히 텍스트가 풍부한 문서 (Finreport 등) 에서는 텍스트 기반 모델이, 이미지 중심 문서 (Slides 등) 에서는 이미지 기반 모델이 각각 우세했으나, CMRAG 는 두 영역 모두에서 균형 잡힌 최상위 성능을 기록했습니다.
생성 성능 (Generation): 검색된 고품질 Co-모달리티 증거를 기반으로 할 때, 생성된 답변의 정확도가 크게 향상되었습니다. 오라클 (Oracle) 실험을 통해 이미지와 텍스트 정보를 모두 제공할 때 가장 높은 정확도가 나온다는 것을 확인했습니다.
Ablation Study: 정규화 (Normalization) 과정이 생략될 경우 성능이 급격히 하락하여, UCMR 의 정규화 기법이 Co-모달리티 신호 융합에 필수적임을 입증했습니다.

5. 의의 및 결론 (Significance)

기술적 의의: 이 연구는 단순히 텍스트와 이미지를 병렬로 처리하는 것을 넘어, 통일된 임베딩 공간과 통계적 정규화를 통해 이질적인 모달리티 간의 불일치를 해결하는 효과적인 RAG 아키텍처를 제시했습니다.
실용적 적용: 기업 지식 검색 (보고서, 슬라이드, 매뉴얼), 기술 지원 (오류 로그, 회로도), 학술/교육 문서 보조 등 텍스트와 이미지가 혼재된 복잡한 문서 환경에서 높은 정확도의 정보 검색 및 생성이 필요한 모든 분야에 적용 가능합니다.
미래 방향: 연구 결과, 텍스트가 우세한 문서에는 명시적 텍스트 검색이, 과도한 컨텍스트는 오히려 성능을 저하시킬 수 있음을 발견하여, 향후 동적 입력 제어 (Dynamic Input Control) 및 모달리티 선택 메커니즘이 중요한 연구 과제로 남았습니다.

이 논문은 복잡한 다중 모달 문서 이해를 위해 텍스트와 시각 정보를 통합적으로 활용하는 것이 단일 모달리티 접근법보다 우월함을 입증하며, 차세대 RAG 시스템의 중요한 방향성을 제시합니다.