RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 1. 문제: 안개 낀 도서관과 망가진 책장

상상해 보세요. 여러분이 거대한 도서관 (AI) 에 가서 특정 정보를 찾고 싶다고 칩시다.

기존 AI (VisRAG): 도서관 사서님이 아주 똑똑합니다. 하지만 사서님이 안개 낀 안경을 끼고 있거나, 손이 떨리는 상태라면 어떻게 될까요?
- 책장 (이미지) 이 흐릿하거나, 빛이 부족하거나, 찢어져 있어도 사서님은 그 상태를 제대로 구분하지 못합니다.
- 결과적으로 "책이 어디 있나?" (검색) 를 잘못 찾거나, 찾은 책 내용을 잘못 읽어서 엉뚱한 답을 줍니다.
- 핵심 문제: 사서님의 뇌 (AI 모델) 에서는 '책의 내용 (의미)'과 '안개/손상 (노이즈)'이 뒤섞여 있어서, 무엇이 진짜 정보인지 구별하기 어렵게 됩니다.

💡 2. 해결책: 두 명의 사서님을 고용하다 (RobustVisRAG)

저자들은 이 문제를 해결하기 위해 한 명의 사서님이 두 가지 역할을 동시에 하되, 서로 다른 방식으로 생각하게 만드는 시스템을 만들었습니다. 이를 **'인과적 (Causality) 듀얼 패스'**라고 부릅니다.

🧹 사서님 A: "망가진 것만 보는 감시자" (비인과적 경로)

이 사서님은 책의 내용은 전혀 보지 않습니다. 오직 "이 책이 얼마나 흐릿한지?", "얼마나 노이즈가 많은지?" 같은 손상된 상태만 집중해서 봅니다.
마치 안개 낀 안경을 닦아주는 사람처럼, "아, 이 사진은 빛이 부족해서 흐리구나", "이건 흔들려서 찌그러졌구나"라고 손상 신호만 정확하게 포착합니다.

📚 사서님 B: "순수한 내용을 찾는 전문가" (인과적 경로)

이 사서님은 진짜 **책의 내용 (의미)**만 봅니다.
하지만 여기서 중요한 건, 사서님 A 가 발견한 '손상 신호'를 참고한다는 점입니다.
"아, 사서님 A 가 말하길 이 사진은 빛이 부족해서 흐리구나. 그럼 내가 내용을 볼 때 빛 부족으로 인한 착시를 무시하고 진짜 글자만 집중해야지!"라고 생각하며 순수한 의미만 추출합니다.

🎯 3. 어떻게 작동할까요? (마법 같은 분리)

기존 방식은 안개 낀 안경을 끼고 책을 읽으려다 안개 때문에 책 내용까지 망가뜨렸습니다. 하지만 이 새로운 시스템은 다음과 같이 작동합니다.

분리 (Disentanglement): '손상된 상태'와 '진짜 내용'을 완전히 분리합니다.
가이드: 사서님 A(손상 감시자) 가 "여기는 흐리니까 무시해!"라고 알려주면, 사서님 B(내용 전문가) 는 그 부분을 제외하고 진짜 내용을 읽습니다.
결과: 안개가 낀 사진이든, 찢어진 문서든, 진짜 내용만 깨끗하게 추출해서 답을 줍니다.

📊 4. 왜 이것이 특별한가요?

기존 방법의 한계:
- 사진을 먼저 복구하는 방법 (Two-Stage): 흐린 사진을 먼저 선명하게 다듬은 뒤 AI 에게 주는 방법입니다. 하지만 AI 가 "다듬은 사진"을 보고도 여전히 헷갈릴 때가 많습니다. (안개를 닦아도 안경이 망가졌을 수 있으니까요.)
- 단순히 학습시키는 방법 (Fine-tuning): AI 에게 망가진 사진을 많이 보여주며 학습시키는 방법입니다. 하지만 AI 가 '망가진 패턴'만 외워서, 깨끗한 사진을 볼 때 오히려 실수를 하거나 너무 많은 전산 자원이 필요합니다.
RobustVisRAG 의 장점:
- 추가 비용 없음: 실제로 답을 줄 때는 '손상 감시자 (사서님 A)'는 필요 없습니다. 이미 '내용 전문가 (사서님 B)'가 순수한 내용만 뽑아냈기 때문입니다. 그래서 속도는 기존과 똑같지만, 정확도는 훨씬 높습니다.
- 실제 환경 강함: 실험 결과, 흐릿하거나 빛이 부족한 실제 문서에서도 검색과 답변 정확도가 크게 향상되었습니다.

🗺️ 5. 새로운 지도 (Distortion-VisRAG 데이터셋)

이 기술을 검증하기 위해 연구자들은 **새로운 시험지 (데이터셋)**를 만들었습니다.

기존에는 깨끗한 문서만 있었지만, 이번에는 인위적으로 흐리게 하거나, 실제 카메라로 어둡게 찍은 문서까지 포함했습니다.
과학 논문, 차트, 손글씨 노트 등 7 가지 분야, 36 만 개 이상의 질문과 문서로 구성되어 있어, AI 가 얼마나 '실전'에 강한지 테스트할 수 있습니다.

🏁 결론

이 논문은 **"흐릿한 세상에서도 AI 가 흔들리지 않고 정확한 답을 찾게 하는 방법"**을 제시합니다. 마치 안개 낀 날에도 길을 잃지 않는 내비게이션처럼, 비록 입력된 사진이 망가져 있어도 AI 는 그 '망가진 부분'을 구별해 내고, 그 아래에 숨겨진 진짜 의미만 뽑아내어 우리에게 정확한 정보를 제공합니다.

이 기술은 문서 검색, 의료 영상 분석, 역사 자료 조사 등 이미지 품질이 완벽하지 않은 모든 분야에서 AI 의 신뢰도를 높여줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

비전 기반 검색 증강 생성 (VisRAG) 은 비전 - 언어 모델 (VLM) 을 활용하여 관련 시각 문서를 검색하고, 다중 모달 증거에 기반하여 답변을 생성하는 시스템입니다. 그러나 기존 VisRAG 모델은 시각적 열화 (Visual Degradations) (예: 흐림, 노이즈, 저조도, 그림자, 압축 아티팩트 등) 가 발생한 입력 데이터에서 성능이 급격히 저하됩니다.

근본 원인: 사전 학습된 비전 인코더 내에서 의미 (Semantic) 와 열화 (Degradation) 요인이 서로 얽혀 (Entangled) 있습니다.
- 검색 단계: 열화된 이미지의 임베딩이 왜곡되어 잘못된 문서를 검색합니다.
- 생성 단계: 올바른 문서를 검색하더라도, 열화된 입력이 생성 과정을 오도하여 할루시네이션이나 의미 불일치를 초래합니다.
기존 접근법의 한계:
- 2 단계 파이프라인 (이미지 복원 후 RAG): 지각적 품질 향상은 검색/생성 성능 향상으로 직결되지 않으며, 때로는 원본 정보를 왜곡할 수 있습니다.
- 파인튜닝 (Full/PEFT): 계산 비용이 크거나 과적합 (Overfitting) 및 기존 지식 망각 (Catastrophic Forgetting) 문제가 발생하며, 명시적인 인과적 가이드가 없어 의미와 열화 요인을 분리하는 데 한계가 있습니다.

2. 제안 방법론: RobustVisRAG

저자들은 인과성 (Causality) 에 기반한 이중 경로 (Dual-Path) 프레임워크인 RobustVisRAG 를 제안합니다. 이 프레임워크는 시각 인코딩 단계에서 의미 정보와 열화 정보를 명시적으로 분리하여, 추론 비용 증가 없이 강건성을 확보합니다.

2.1. 인과적 구조 모델 (Causal Formulation)

가정: 문서 이미지 $X$ 는 의미 요인 $S$ 와 열화 요인 $D$ 의 결합으로 생성됩니다 ( $X = f(S, D, \epsilon)$ ).
문제: 기존 인코더는 $X$ 를 임베딩 $Z$ 로 변환할 때 $S$ 와 $D$ 가 섞이게 되어 ( $S \not\perp D | Z$ ), 열화 요인이 의미 표현에 간섭합니다.
목표: $Z$ 를 의미 ( $Z_{sem}$ ) 와 열화 ( $Z_{deg}$ ) 로 분리하여, 열화 요인을 차단한 상태 ( $do(D=d_0)$ ) 에서 의미만 추출하는 개입적 (Interventional) 분포를 근사하는 것입니다.

2.2. 아키텍처: 이중 경로 인코더

RobustVisRAG 는 두 개의 보완적인 경로를 통해 작동합니다.

비인과적 경로 (Non-Causal Path):
- 역할: 이미지 전체의 열화 신호를 수집합니다.
- 메커니즘: 입력에 비인과적 토큰 (Non-Causal Token) 을 추가하고, 단방향 어텐션 (Unidirectional Attention) 을 적용합니다.
  - 비인과적 토큰은 모든 패치 토큰을 참조할 수 있음.
  - 패치 토큰은 비인과적 토큰을 참조할 수 없음 (열화 정보가 의미 토큰으로 역류하는 것 방지).
- 출력: 열화 표현 $Z_{deg}$ .
인과적 경로 (Causal Path):
- 역할: 열화 신호의 가이드 하에 정제된 의미 정보를 학습합니다.
- 메커니즘: 패치 토큰 간의 양방향 어텐션을 수행하되, 비인과적 토큰은 제외합니다.
- 출력: 열화에 불변인 의미 표현 $Z_{sem}$ .

2.3. 학습 목적 함수 (Learning Objectives)

두 경로의 기능적 분리를 위해 두 가지 목적 함수를 도입합니다.

비인과적 왜곡 모델링 (NCDM, Non-Causal Distortion Modeling):
- 비인과적 경로의 표현 $Z_{deg}$ 가 열화 유형에 따라 명확하게 클러스터링되도록 하는 대조적 손실 (Contrastive Loss) 입니다.
- 같은 열화 유형은 가깝게, 다른 열화 유형은 멀게 배치하여 열화 패턴을 명확히 학습시킵니다.
인과적 의미 정렬 (CSA, Causal Semantic Alignment):
- 의미 일관성: 깨끗한 이미지와 열화된 이미지의 의미 표현 ( $Z_{sem}$ ) 이 유사하도록 유도합니다.
- 독립성: 의미 표현 ( $Z_{sem}$ ) 이 열화 표현 ( $Z_{deg}$ ) 과 통계적으로 독립적이 되도록 강제합니다.
- 이를 통해 $Z_{sem}$ 이 열화 요인 $D$ 의 영향을 받지 않도록 정제합니다.

2.4. 추론 (Inference)

학습 시에는 두 경로를 모두 사용하지만, 추론 시에는 비인과적 경로 ( $Z_{deg}$ ) 를 제거하고 인과적 경로에서 추출된 $Z_{sem}$ 만 검색 및 생성 모듈에 입력합니다.
이로 인해 추가적인 추론 비용 없이 기존 VisRAG 파이프라인과 호환되는 강건한 성능을 달성합니다.

3. 주요 기여 (Key Contributions)

RobustVisRAG 프레임워크:
- 시각 인코딩 단계에서 의미와 열화 요인을 인과적으로 분리하는 이중 경로 구조를 제안했습니다.
- 추가 추론 비용 없이 검색, 생성, 엔드 - 투 - 엔드 성능을 모두 향상시켰습니다.
Distortion-VisRAG 데이터셋:
- VisRAG 벤치마크를 확장한 대규모 데이터셋을 구축했습니다.
- 합성 데이터: 12 가지 열화 유형, 5 단계 심각도 (36 만 개 이상의 Q-D 쌍).
- 실제 데이터: 저조도, 그림자, 종이 손상 등 실제 촬영 환경에서 수집된 1,891 개의 테스트 쌍.
- 7 가지 도메인 (과학 논문, 차트, 슬라이드, 수기 노트 등) 을 포괄합니다.
성능 향상:
- 실제 열화 조건에서 검색 성능 7.35%, 생성 성능 6.35%, 엔드 - 투 - 엔드 성능 12.40% 향상.
- 깨끗한 입력 (Clean inputs) 에서는 기존 모델과 동등한 정확도 유지.

4. 실험 결과 (Results)

검색 성능 (Retrieval):
- 기존 VisRAG 대비 합성/실제 열화 데이터에서 MRR@10 이 각각 7.25%, 7.35% 향상.
- OCR 기반 파이프라인이나 기존 파인튜닝 (FARE 등) 방법보다 열화 환경에서 훨씬 우월한 성능을 보임.
생성 성능 (Generation):
- RobustVisRAG 가 검색한 문서를 기반으로 생성 시, Oracle 설정 (정답 문서 제공) 에서 기존 VisRAG 대비 6.35% 향상.
- GPT-4o 보다 10.42% 높은 정확도를 기록.
엔드 - 투 - 엔드 (End-to-End):
- 검색과 생성이 모두 개선되어 전체 파이프라인의 정확도가 12.4% 상승.
- 2 단계 이미지 복원 전략 (Two-Stage) 은 오히려 성능이 떨어지거나 제한적인 개선만 보임.
애블레이션 연구 (Ablation Study):
- 단방향 어텐션 제약, NCDM, CSA 중 하나라도 제거되면 성능이 크게 저하됨. 특히 단방향 어텐션이 의미 - 열화 분리에 필수적임이 입증됨.
- t-SNE 시각화 결과, 제안된 방법은 열화 유형별로 명확한 클러스터를 형성하고, 의미적 관심 영역이 열화에도 일관되게 유지됨을 보여줌.

5. 의의 및 결론 (Significance)

이 논문은 VisRAG 시스템이 실제 세계의 불완전한 시각 데이터 (열화) 에 직면했을 때 겪는 취약점을 해결하기 위해 인과적 사고 (Causal Reasoning) 를 도입한 선구적인 연구입니다.

기술적 혁신: 단순한 이미지 복원이나 파인튜닝을 넘어, 모델 내부 표현 (Latent Representation) 수준에서 '원인 (의미)'과 '교란 요인 (열화)'을 구조적으로 분리하는 메커니즘을 제시했습니다.
실용성: 추론 시 추가 비용이 들지 않아 실제 배포 환경에 적용하기 용이하며, 구축한 Distortion-VisRAG 데이터셋은 향후 다중 모달 RAG 모델의 강건성 평가를 위한 표준 벤치마크로 활용될 수 있습니다.
영향: 문서 이해, 의료 영상 분석, 현장 조사 등 시각 데이터의 품질이 보장되지 않는 다양한 분야에서 신뢰할 수 있는 AI 시스템 구축의 토대를 마련했습니다.