Each language version is independently generated for its own context, not a direct translation.

위키-R1: 지식을 쌓는 AI 의 '단계별 학습' 비법

이 논문은 **"지식 기반 시각 질문 답변 (KB-VQA)"**이라는 아주 까다로운 문제를 해결하기 위해 개발된 새로운 AI 학습 방법, **'위키-R1 (Wiki-R1)'**에 대해 설명합니다.

쉽게 비유하자면, 이 논문은 **"AI 가 방대한 도서관 (위키백과) 에서 책을 찾아 답을 낼 때, 처음부터 어려운 책만 주면 혼란스러워하므로, 쉬운 책부터 차근차근 어려운 책으로 넘어가며 훈련시키는 방법"**을 제안합니다.

1. 왜 이런 방법이 필요할까요? (문제 상황)

기존의 AI 모델들은 사진을 보고 질문에 답하는 데는 능숙하지만, **사진 밖의 외부 지식 (예: "이 꽃의 학명은 무엇인가?")**을 찾아서 답해야 할 때는 매우 힘들어합니다.

소음 (Noise) 문제: AI 가 검색을 하면, 정답이 섞여 있는 책도 있지만 엉뚱한 책도 섞여 나옵니다. 마치 도서관에서 정답을 찾으려는데, 책장마다 잡동사니가 쌓여 있는 것과 같습니다.
학습의 공백: AI 는 훈련 데이터 (쉬운 것) 와 실제 시험 (어렵고 복잡한 지식) 사이의 격차가 너무 커서, 강화 학습 (보상을 통해 배우는 방식) 을 할 때 "정답을 맞췄다/틀렸다"는 신호를 거의 받지 못해 학습이 멈춥니다.

비유: 마치 초등학교 1 학년 학생에게 갑자기 대학 수준의 미적분 문제를 주면서 "이걸 풀면 간식을 줄게"라고 하는 것과 같습니다. 학생은 당황할 뿐, 어떻게 풀어야 할지 모릅니다.

2. 위키-R1 의 해결책: "단계별 커리큘럼"

위키-R1 은 이 문제를 해결하기 위해 두 가지 핵심 전략을 사용합니다.

① 조절 가능한 데이터 생성 (Controllable Data Generation)

이 방법은 AI 의 능력을 조절하는 '난이도 조절기' 역할을 합니다.

초급 (가장 쉬운 단계): AI 가 정답이 있는 책 (정확한 지식) 만 딱 하나만 찾아오게 합니다. 이때는 AI 가 100% 정답을 맞춥니다.
중급: 정답 책 옆에 엉뚱한 책 1~2 권을 섞어줍니다. AI 는 정답을 찾아야 하지만, 방해물이 생깁니다.
고급 (최종 단계): 정답 책이 아예 검색 결과에 없을 수도 있습니다. AI 는 엉뚱한 책들 사이에서 논리적으로 추론해 정답을 찾아야 합니다.

핵심: AI 가 현재 단계에서 잘할 때만 다음 단계 (더 어려운 단계) 로 넘어갑니다. 마치 게임에서 레벨이 오르면 더 강한 몬스터가 등장하는 것과 같습니다.

② 관찰 전파를 통한 샘플링 (Curriculum Sampling with Observation Propagation)

학습 과정에서 AI 가 "어떤 문제를 풀면 보상을 잘 받을까?"를 미리 예측하는 **'예측 지도'**를 그리는 기술입니다.

문제: AI 가 모든 문제를 다 풀어볼 수는 없습니다. (시간이 너무 걸림)
해결: AI 가 푼 몇몇 문제의 결과를 바탕으로, 아직 풀지 않은 비슷한 문제들의 난이도를 예측합니다.
비유: 학생이 "삼각형 문제"를 잘 풀었다면, 아직 풀지 않은 "사다리꼴 문제"도 비슷하게 풀 수 있을 것이라고 추측하여, 그 문제들을 먼저 연습시키는 것입니다. 이렇게 하면 AI 는 헛된 노력 (보상이 없는 문제) 을 덜 하고, 가장 효과적인 문제만 골라 학습합니다.

3. 결과는 어땠나요?

이 방법을 적용한 결과, AI 는 두 가지 어려운 시험 (Encyclopedic VQA 와 InfoSeek) 에서 **최고의 기록 (State-of-the-Art)**을 세웠습니다.

기존: 35.5% 정답률 → 위키-R1: 37.1% 정답률 (Encyclopedic VQA)
기존: 40.1% 정답률 → 위키-R1: 44.1% 정답률 (InfoSeek)

특히, AI 가 한 번도 본 적 없는 새로운 질문에도 잘 대처하는 범용성이 크게 향상되었습니다.

4. 요약: 왜 이 논문이 중요한가요?

이 논문은 AI 가 복잡한 지식을 습득할 때, **"무작위로 어려운 문제를 던지는 것"**이 아니라, **"학습자의 수준에 맞춰 난이도를 조절하고, 가장 효과적인 문제를 골라주는 체계적인 지도"**가 필요하다는 것을 증명했습니다.

한 줄 요약:

"AI 에게 지식을 가르칠 때, 처음부터 어려운 책을 주지 말고, 쉬운 책부터 차근차근 어려운 책으로 넘어가며, AI 가 가장 잘 배울 수 있는 문제만 골라주면 훨씬 똑똑해진다!"는 것을 보여준 연구입니다.

이 기술은 앞으로 AI 가 의료, 법률, 과학 등 전문적인 지식을 필요로 하는 분야에서 더 정확하게 일할 수 있는 기반을 마련해 줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

Wiki-R1: 지식 기반 시각적 질문 응답 (KB-VQA) 을 위한 멀티모달 추론 촉진

이 논문은 Wiki-R1이라는 새로운 프레임워크를 제안하여, 멀티모달 대규모 언어 모델 (MLLM) 이 지식 기반 시각적 질문 응답 (KB-VQA) 과제에서 추론 능력을 향상시키는 방법을 제시합니다. ICLR 2026 에 발표된 이 연구는 데이터 생성 기반의 커리큘럼 강화학습 (Curriculum Reinforcement Learning) 을 통해 기존 모델들이 겪는 학습의 어려움을 해결하고 새로운 최첨단 (SOTA) 성능을 달성했습니다.

1. 문제 정의 (Problem)

KB-VQA 는 이미지에 대한 질문에 답하기 위해 외부 지식 (예: 위키백과) 을 통합해야 하는 복잡한 작업입니다. 기존 접근법은 검색 증강 생성 (RAG) 프레임워크를 사용하지만, 다음과 같은 근본적인 한계가 존재합니다:

노이즈가 포함된 검색: 검색 시스템은 항상 완벽하지 않으며, 관련 없는 정보를 포함할 수 있습니다.
지식 베이스의 구조적 특성: 위키백과와 같은 지식 베이스는 구조화되고 백과사전적인 형태를 띠고 있어, 사전 학습된 MLLM 이 익숙하지 않은 형식입니다.
분포 간격 (Distributional Gap): 사전 학습 데이터와 KB-VQA 타겟 도메인 사이의 큰 차이로 인해, 강화학습 (RL) 단계에서 희소 보상 (Sparse Reward) 문제가 발생합니다.
- 실험 결과, 기존 RL 알고리즘 (DAPO 등) 을 적용할 때 샘플의 80% 이상이 0 의 이득 (Zero Advantage) 을 보이며, 학습 정확도가 매우 낮게 유지되는 문제가 확인되었습니다. 이는 검색 노이즈와 분포 간격이 RL 학습을 방해하기 때문입니다.

2. 방법론 (Methodology)

저자들은 Wiki-R1을 제안하여, 모델의 능력 진화에 맞춰 학습 분포를 점진적으로 조정하는 커리큘럼 RL 프레임워크를 구축했습니다. 이는 크게 두 가지 핵심 구성 요소로 이루어집니다.

2.1. 제어 가능한 커리큘럼 데이터 생성 (Controllable Curriculum Data Generation)

기존의 고정된 데이터셋에서 샘플을 선택하는 방식 대신, 검색 시스템을 조작하여 원하는 난이도의 데이터를 생성합니다.

갭 레벨 (Gap Level, $g$ ): 사전 학습 분포와 KB-VQA 타겟 분포 사이의 거리를 나타내는 레벨 ( $0 \sim G$ $0 \sim G$ ) 을 정의합니다.
- 가장 쉬운 레벨 ( $g=0$ ): 정답 (Ground-truth) 문서만 검색하여 노이즈를 제거합니다.
- 중간 레벨: 정답 문서와 함께 일부 노이즈가 포함된 후보를 검색합니다.
- 가장 어려운 레벨 ( $g=G$ ): 정답 문서가 포함되지 않을 수도 있는 완전한 추론 시나리오와 동일한 분포를 생성합니다.
적응형 스케줄링: 모델의 학습 정확도가 일정 임계값 ( $\tau$ ) 을 넘으면, 자동으로 다음 난이도 레벨로 전환하여 모델이 현재 수준을 마스터한 후 더 어려운 과제를 접하도록 합니다.

2.2. 관측 전파를 통한 커리큘럼 샘플링 (Curriculum Sampling with Observation Propagation)

생성된 데이터가 항상 의도된 난이도를 만족하지는 않으며, RL 학습 중 보상이 희소할 수 있는 문제를 해결합니다.

관측 전파 (Observation Propagation): 관찰된 샘플의 보상 (성공/실패) 정보를 지식 베이스 문서의 유사도를 기반으로 관측되지 않은 샘플로 전파합니다.
- 라벨 전파 그래프 (Label Propagation Graph) 를 구축하여, 관련 지식 문서를 공유하는 샘플 간의 상관관계를 활용합니다.
- 이를 통해 희소한 보상 신호만으로도 모든 샘플의 난이도를 추정하고, RL 업데이트 시 **0 이 아닌 이득 (Non-zero Advantage)**을 기대할 수 있는 유익한 샘플을 선별합니다.
샘플링 전략: 학습 정확도가 약 0.5 에 가까운 (가장 학습 효과가 큰) 샘플을 중심적으로 샘플링하도록 Gaussian 분포를 기반으로 조정합니다.

3. 주요 기여 (Key Contributions)

Wiki-R1 프레임워크 제안: 데이터 생성과 샘플링 커리큘럼을 결합하여 MLLM 의 KB-VQA 추론 능력을 체계적으로 촉진하는 새로운 RL 프레임워크를 제시했습니다.
적응형 커리큘럼 설계: 검색 시스템을 조작하여 난이도를 제어하는 데이터 생성 방식과, 관측 전파를 통해 희소 보상 문제를 해결하는 샘플링 전략을 통합했습니다.
성능 향상 및 일반화: 두 가지 주요 벤치마크에서 기존 최첨단 방법을 능가하는 결과를 달성했으며, 특히 보지 못한 질문 (Unseen Questions) 에 대한 일반화 능력을 입증했습니다.

4. 실험 결과 (Results)

Encyclopedic VQA와 InfoSeek 두 가지 벤치마크에서 Wiki-R1 의 성능을 평가했습니다.

방법	모델 크기	Encyclopedic VQA (Accuracy)	InfoSeek (Accuracy)	InfoSeek (Unseen-Q)
이전 SOTA (ReflectiVA 등)	-	35.5%	40.1%	-
Wiki-R1 (Ours)	3B	40.4%	42.2%	46.0%
Wiki-R1 (Ours)	7B	41.0%	44.1%	47.8%

Encyclopedic VQA: 정확도가 35.5% 에서 **37.1% (7B 기준)**로 향상되었습니다.
InfoSeek: 정확도가 40.1% 에서 **44.1% (7B 기준)**로 향상되었습니다.
Unseen-Q (보지 못한 질문): InfoSeek 의 Unseen-Q 분할에서 **47.8%**의 정확도를 기록하여, 모델이 새로운 쿼리에 대해 강력한 일반화 능력을 가짐을 보여줍니다.
효율성: 기존 방법들 (Wiki-LLaVA, ReflectiVA 등) 이 수백만 개의 학습 데이터를 사용하는 반면, Wiki-R1 은 **2 만 개 (20k)**의 소규모 데이터셋으로도 더 높은 성능을 달성하여 학습 효율성이 뛰어남을 입증했습니다.

5. 의의 및 결론 (Significance)

Wiki-R1 은 KB-VQA 와 같은 도메인 적응이 필요한 멀티모달 작업에서 강화학습의 희소 보상 문제를 효과적으로 해결하는 새로운 패러다임을 제시합니다.

분포 간격 해소: 사전 학습 분포와 타겟 도메인 사이의 간격을 점진적으로 줄이는 커리큘럼 접근법은 RL 학습의 안정성을 크게 높였습니다.
데이터 효율성: 적은 양의 데이터로도 높은 성능을 낼 수 있어, 계산 자원과 데이터가 제한된 환경에서도 적용 가능한 솔루션을 제공합니다.
향후 연구 방향: 검색 시스템 조작을 통한 부분적인 제어에서 벗어나, 더 정교하게 제어 가능한 데이터 생성 기술로 발전할 수 있는 가능성을 열었습니다.

결론적으로, 이 연구는 검색 증강 생성 (RAG) 과 강화학습을 통합하여 복잡한 지식 기반 추론 작업을 수행하는 MLLM 의 능력을 획기적으로 향상시키는 중요한 이정표가 되었습니다.

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum