MaS-VQA: A Mask-and-Select Framework for Knowledge-Based Visual Question Answering

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 문제: "지식 많지만 소음이 많은 비서"

기존의 AI 비서들은 두 가지 방식으로 일을 했습니다.

외부 지식만 믿는 비서: 질문을 받으면 인터넷을 뒤져서 관련 글들을 쭉 가져옵니다. 하지만 문제는 너무 많은 글을 가져와서, 중요한 정보와 쓸모없는 정보 (소음) 가 뒤섞여 있다는 점입니다. 마치 도서관에서 책 100 권을 다 가져와서 "이 중에서 답이 뭐야?"라고 묻는 것과 비슷하죠.
머릿속 지식만 믿는 비서: 인터넷 검색 없이 자신의 기억 (학습된 데이터) 만으로 답을 냅니다. 하지만 기억이 틀릴 수도 있고, 최신 정보가 없거나, 그림의 구체적인 부분과 연결하지 못할 때가 많습니다.

이전 방법들은 이 두 가지를 단순히 섞어서 썼는데, 그 결과 중요한 정보가 묻히고, 헛된 정보 때문에 엉뚱한 답을 내놓는 경우가 많았습니다.

💡 해결책: "MaS-VQA (마스크 앤 셀렉트)"

저자들은 이 문제를 해결하기 위해 **"선택과 집중"**을 하는 새로운 비서, MaS-VQA를 만들었습니다. 이 비서는 두 가지 핵심 기술을 사용합니다.

1. "마스크 앤 셀렉트 (Mask-and-Select)": 쓰레기 분리수거

이 비서는 정보를 받아오자마자 바로 정리를 합니다.

그림에서 불필요한 부분 가리기 (Mask):
질문이 "이 식물의 열매를 누가 먹었나요?"라고 물으면, 비서는 그림에서 열매가 있는 부분만 확대해서 보고, 배경의 나뭇잎이나 하늘 같은 불필요한 부분은 하얀색으로 가려버립니다 (마스크). 마치 사진 편집 프로그램에서 중요한 사람만 남기고 나머지를 흐리게 만드는 것과 같습니다.
글에서 핵심만 뽑아내기 (Select):
인터넷에서 가져온 긴 글 (예: 식물에 대한 10 페이지 분량의 논문) 을 보면, 비서는 **"이 식물의 열매를 원주민이 먹었다"**는 문장만 하이라이트하고, 나머지 지루한 설명은 잘라냅니다.

이 과정을 통해 **중요한 정보만 꽉 찬 '고밀도 지식'**을 만들어냅니다.

2. "내부 지식과 협력하기": 정리된 정보를 바탕으로 추론

이제 비서는 정리된 '고밀도 지식'을 가지고 자신의 **머릿속 지식 (내부 지식)**을 꺼냅니다.

단순히 "열매를 먹은 사람"이라고만 검색하는 게 아니라, **"그림에서 열매가 붉고 작다는 점 (시각 정보)"**과 **"원주민이 먹었다는 기록 (외부 지식)"**을 합쳐서, **"아, 이건 '베어베리'라는 식물이고, 역사적으로 원주민들이 먹었던 거구나!"**라고 논리적으로 추론합니다.
이 과정은 마치 수사관이 증거 (그림) 와 참고 자료 (문서) 를 대조하며 범인을 찾는 것과 같습니다.

🎯 실제 효과: 왜 더 잘할까요?

이 시스템을 실험해 보니 다음과 같은 결과가 나왔습니다.

소음 제거: 불필요한 정보에 혼동되지 않아서, 엉뚱한 답을 줄이고 정확한 답을 더 많이 냅니다.
유연한 추론: 그림과 글이 서로 다른 정보를 줄 때, 두 가지를 잘 연결해서 새로운 결론을 도출합니다.
- 예시: 그림을 보면 '저수지'처럼 보이지만, 글에는 '다른 저수지'에 대한 정보가 섞여 있을 수 있습니다. MaS-VQA 는 그림의 핵심 부분 (댐) 과 글의 핵심 부분 (연도) 을 정확히 매칭해서 **"1966 년에 지어진 저수지"**라고 정확히 맞춥니다.

📝 한 줄 요약

MaS-VQA는 "그림과 글에서 중요한 부분만 골라내고 (선택), 불필요한 건 가려서 (마스크) 정리한 뒤, 이를 바탕으로 스마트하게 추론하는" 똑똑한 AI 비서입니다.

이 기술은 교육, 장애인 보조, 정보 검색 등 정확한 지식이 필요한 분야에서 AI 가 더 신뢰할 수 있도록 도와줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

**지식 기반 시각적 질문 답변 (KB-VQA)**은 이미지와 질문을 결합하여 외부 지식 (External Knowledge) 을 활용하여 답변을 생성하는 작업입니다. 기존 방법론들은 크게 명시적 (Explicit), 암시적 (Implicit), 그리고 하이브리드 방식으로 나뉘지만, 다음과 같은 근본적인 한계가 존재합니다.

잡음 (Noise) 과 불일치: 검색된 외부 지식은 종종 관련성이 낮거나, 시각적 콘텐츠와 정렬되지 않으며, 불필요한 정보를 포함하고 있습니다.
비효율적인 통합: 기존 방법들은 시각적 영역과 텍스트 지식을 독립적으로 필터링하거나 단순하게 결합하는 경향이 있어, 잡음이 많은 입력 하에서 효과적인 추론이 어렵습니다.
제어 불가능한 내부 지식: 대규모 언어 모델 (LLM) 의 내부 지식 (암시적 지식) 은 제어하기 어렵고 해석이 불가능하여, 검색된 지식과 충돌하거나 할루시네이션을 유발할 수 있습니다.

이러한 문제들로 인해 어떤 시각적 정보와 어떤 검색된 지식을 추론에 사용할지 효과적으로 제어하는 것이 KB-VQA 의 핵심 과제로 남았습니다.

2. 제안 방법론: MaS-VQA (Methodology)

저자들은 MaS-VQA를 제안했습니다. 이는 선택 주도 (Selection-driven) 프레임워크로, 외부 지식의 필터링 (명시적) 과 모델 내부 지식의 추론 (암시적) 을 긴밀하게 결합합니다. 전체 아키텍처는 크게 세 단계로 구성됩니다.

가. 다중 모달 검색 (Multimodal Retrieval)

이미지 ( $I$ ) 와 질문 ( $Q$ ) 을 입력으로 받아 외부 지식 베이스 (예: 위키백과) 에서 상위 $k$ 개의 후보 문서 ( $T$ ) 를 검색합니다.

나. 명시적 지식 처리: Mask-and-Select 메커니즘

검색된 지식과 이미지에서 잡음을 제거하고 핵심 정보만 선별하는 통합 메커니즘입니다.

시각적 측면 (Masking):
- 검색된 텍스트 ( $T$ ) 와 질문 ( $Q$ ) 을 기반으로 **지식 유도 주의 마스크 (Knowledge-guided Attention Mask)**를 생성합니다.
- 크로스 어텐션 (Cross-attention) 과 민감도 신호 (Sensitivity signals) 를 활용하여 질문과 관련된 시각적 영역을 강조하고, 불필요한 영역을 마스킹 (Suppress) 합니다.
- 토큰별 가중치 재할당 (Adaptive Token Reweighting) 을 통해 질문과 지식의 중요도에 따라 시각적 패치 선택의 강도를 조절합니다.
텍스트 측면 (Selecting):
- 검색된 긴 문서 ( $T$ ) 에서 질문과 가장 밀접하게 관련된 **키워드 구 (Phrase)**만 선별합니다.
- 자기 어텐션 (Self-attention) 과 민감도 분석을 통해 질문을 지원하는 핵심 토큰을 식별하고, 이를 읽기 가능한 구문으로 병합하여 잡음이 제거된 텍스트 힌트 ( $k$ ) 를 생성합니다.

이 과정을 통해 **압축되고 고신호 (High-signal) 인 명시적 지식 패키지 ( $E = \{T, k, M\}$ )**가 생성됩니다.

다. 암시적 지식 처리 (Implicit Knowledge Processing)

필터링된 명시적 지식 ( $E$ ) 을 기반으로 고정된 (Frozen) 멀티모달 LLM (MLLM) 을 사용하여 **암시적 지식 문단 ( $U$ )**을 생성합니다.
이 문단 (2~5 문장) 은 검색된 증거와 시각적 관찰을 종합하여, 질문에 답변하는 데 필요한 중간 추론 단계와 도메인 상식을 포함합니다.
이는 모델의 내부 지식 (Parametric Knowledge) 을 활성화하되, 필터링된 증거에 기반하여 할루시네이션을 방지하고 추론의 신뢰성을 높입니다.

라. 최종 답변 예측

이미지, 질문, 필터링된 명시적 지식, 그리고 생성된 암시적 지식을 모두 입력으로 받아 최종 답변 확률 분포를 계산합니다.

3. 주요 기여 (Key Contributions)

MaS-VQA 프레임워크 제안: KB-VQA 를 위해 명시적 지식 필터링과 암시적 파라미터 추론을 긴밀하게 결합한 새로운 선택 기반 프레임워크를 제시했습니다.
통합된 Mask-and-Select 메커니즘: 시각적 영역과 검색된 지식 텍스트를 동시에 세밀하게 선별 (Fine-grained selection) 하여, 잡음 누적을 방지하고 고신호 명시적 표현을 생성합니다.
성능 향상 및 검증: Encyclopedic-VQA 와 InfoSeek 두 가지 주요 벤치마크에서 다양한 MLLM 백본 (InternVL3, Qwen3-VL 등) 을 사용하여 일관된 성능 향상을 입증했습니다.

4. 실험 결과 (Results)

주요 벤치마크 성능:
- Encyclopedic-VQA (E-VQA): Zero-shot MLLM 대비 압도적인 성능 향상 (예: Qwen3-VL-8B 기준 Zero-shot 19.5% → MaS-VQA 42.2% Single-Hop). 기존 검색 증강 모델 (Retrieval-Augmented) 들보다도 최상의 정확도를 기록했습니다.
- InfoSeek: Unseen Question(Unseen-Q) 과 Unseen Entity(Unseen-E) 설정에서 모두 최상위 성능을 보이며, 새로운 질문과 개체에 대한 일반화 능력이 뛰어남을 입증했습니다.
Ablation Study (성분 분석):
- Attention Mask와 Phrase Selection을 모두 사용할 때 성능이 가장 높았으며, 이는 시각적 국소화와 텍스트 선별이 상호 보완적임을 의미합니다.
- 암시적 지식을 추가하면 잡음이 제거된 명시적 지식과 결합되어 추론 정확도가 더욱 향상되었습니다.
- 검색 깊이 (k): $k=5$ 일 때 최적의 성능을 보였으며, 너무 많은 문서 ( $k=7$ ) 를 검색하면 오히려 잡음이 증가하여 성능이 약간 저하되었습니다.
Case Study:
- 단순 검색 시 발생하는 잘못된 연결 (Spurious associations) 을 Mask-and-Select 를 통해 교정하고, 검색된 텍스트에 없는 상식적 추론이 필요한 경우 암시적 지식을 통해 정확한 답변을 도출하는 것을 시각적으로 확인했습니다.

5. 의의 및 결론 (Significance)

MaS-VQA 는 KB-VQA 분야에서 검색된 외부 지식의 잡음 문제와 모델 내부 지식의 통제 불가능성을 동시에 해결하는 효과적인 접근법을 제시합니다.

신뢰성 및 해석 가능성: 불필요한 정보를 제거하고 핵심 증거에 집중함으로써 모델의 추론 과정을 더 투명하게 만들고, 할루시네이션을 줄입니다.
범용성: 추가적인 학습 (Fine-tuning) 없이 추론 단계 (Inference-time) 에서만 작동하므로, 다양한 MLLM 백본에 쉽게 적용 가능합니다.
응용 가능성: 교육 보조 도구, 접근성 도구, 정보 검색 시스템 등 지식 집약적인 멀티모달 응용 분야에서 더 강건하고 정확한 답변을 제공하는 데 기여할 것으로 기대됩니다.

이 연구는 외부 지식과 내부 지식을 어떻게 효과적으로 '선택'하고 '결합'할 것인지에 대한 새로운 패러다임을 제시하며, 복잡한 시각 - 언어 추론 작업의 성능 한계를 확장했습니다.