When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"의료용 AI(시각-언어 모델) 를 더 똑똑하게 만들기 위해 '강화학습 (RL)'이라는 기술을 쓸 때, 정말로 효과가 있을까?"**라는 질문에 답하는 연구입니다.

쉽게 말해, "AI 에게 새로운 지식을 가르치는 것 (SFT)"과 "이미 알고 있는 지식을 더 잘 꺼내오게 만드는 것 (RL)" 중 무엇이 더 중요한지, 그리고 언제 강화학습을 써야 하는지를 실험으로 증명했습니다.

이 내용을 일상적인 비유로 설명해 드릴게요.

🏥 비유: "의사 인턴"과 "시험 준비"

이 연구의 주인공은 의료 AI입니다. 이 AI 를 병원에서 일하는 **'의사 인턴'**이라고 상상해 보세요.

1. 세 가지 단계의 역할 (시각, SFT, RL)

연구진은 이 인턴의 성장을 세 단계로 나누어 분석했습니다.

👁️ 시각 (Vision): "눈이 밝은가?"
- AI 가 X-ray 나 피부 사진을 잘 보는지 확인하는 단계입니다.
- 결과: 기본 AI 는 이미 눈이 꽤 밝았습니다. 하지만 SFT(지도 학습) 를 거치면 더 선명해졌고, 강화학습 (RL) 은 눈의 밝기를 크게 바꾸지는 못했습니다. 즉, 강화학습은 '눈'을 훈련시키는 게 아니라 '머리'를 훈련시키는 것이었습니다.
📚 SFT (지도 학습): "새로운 의학 지식을 배우는 것"
- 인턴에게 수많은 의료 책과 사례를 읽고 공부하게 하는 단계입니다.
- 결과: 이 과정을 거치면 AI 는 **알고 있는 지식의 범위 (Support)**가 넓어졌습니다. 즉, "이런 병도 알고 있어!"라는 상태가 된 거죠.
🎯 RL (강화학습): "시험에서 정답을 골라내는 요령"
- 이미 알고 있는 지식을 바탕으로, 정답을 더 빠르고 정확하게 골라내게 하는 훈련입니다.
- 핵심 발견: 강화학습은 이미 알고 있는 지식이 있을 때만 효과가 있었습니다.
  - 상황 A (지식이 없는 경우): AI 가 아예 모르는 문제를 풀게 하면, 강화학습을 시켜도 정답을 못 찾습니다. (지식 자체가 없으니까요.)
  - 상황 B (지식은 있는데 못 찾은 경우): AI 는 정답을 알고 있었지만, 평소에는 엉뚱한 답을 고르는 버릇이 있었습니다. 이때 강화학습을 시키니, **"아, 정답은 이거였구나!"**라고 확신을 가지고 골라내는 능력이 생겼습니다.

2. 주요 발견: "보이지 않는 능력 (Pass@K)"

연구진은 AI 가 한 번에 정답을 맞히는 것 (Accuracy@1) 만 보지 않고, **여러 번 시도했을 때 정답을 맞힐 확률 (Pass@K)**도 봤습니다.

비유: AI 가 시험지를 여러 장 받아서 (여러 번 시도), 그중 하나라도 정답을 맞출 수 있는 능력을 말합니다.
발견: 많은 경우, AI 는 정답을 알고 있었음 (Pass@K 는 높음) 에도 불구하고, 한 번에 맞히는 실력은 떨어졌습니다 (Accuracy@1 은 낮음).
RL 의 역할: 강화학습은 이 **'알고 있지만 못 꺼내는 능력'을 잘 꺼내게 만드는 '요령'**을 가르쳐주는 것입니다.

3. 결론: 언제 강화학습을 써야 할까? (레시피)

이 논문이 제안하는 가장 중요한 결론은 **"순서"**입니다.

❌ 잘못된 순서:
AI 가 아무것도 모를 때부터 바로 강화학습 (RL) 을 시키면?
-> 효과 없음. (아예 모르는 것을 요령으로만 가르칠 수는 없으니까요.)

✅ 올바른 순서 (이 논문이 제안한 '경계 인식 레시피'):

1 단계 (SFT): 먼저 AI 에게 필요한 의료 지식을 충분히 가르쳐서 정답을 알고 있는 상태로 만듭니다. (지식 범위 확장)

2 단계 (RL): 그다음에 강화학습을 시켜서, 알고 있는 정답을 더 확실히 골라내게 만듭니다. (요령 및 효율성 향상)

📝 한 줄 요약

"강화학습 (RL) 은 AI 가 이미 '지식'을 가지고 있을 때, 그 지식을 더 잘 활용하게 만드는 '마무리 훈련'일 뿐, 지식을 처음부터 가르치는 '수업'은 아닙니다."

이 연구를 통해 개발자들은 **"먼저 SFT 로 지식을 채우고, 그다음 RL 로 실력을 다듬어야 의료 AI 가 가장 잘 작동한다"**는 명확한 가이드라인을 얻게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 의료용 비전 - 언어 모델 (Medical VLMs) 에 강화학습 (RL) 을 적용할 때, 실제 성능 향상이 시각적 인식 (Vision) 능력의 향상에서 비롯된 것인지, 아니면 지도 미세조정 (SFT) 을 통해 이미 학습된 행동을 RL 이 더 정교하게 다듬어준 것인지에 대한 의문을 해결하기 위해 수행된 통제된 연구입니다. 저자들은 RL 이 의료 분야에서 언제, 어떻게 효과적인지 규명하기 위해 '시각', 'SFT', 'RL'의 효과를 분리하여 분석했습니다.

1. 연구 배경 및 문제 정의 (Problem)

현황: 의료 VLM 은 임상 영상 처리, 보고서 작성, 의사결정 지원 등에 활용되지만, 단순한 정확도뿐만 아니라 신뢰성과 투명성이 요구됩니다. 최근 LLM 의 '추론 (Reasoning)' 능력 향상을 위해 RL(특히 검증 가능한 보상을 이용한 RLVR) 이 의료 VLM 후학습 (post-training) 에 활발히 도입되고 있습니다.
문제점:
- 기존 연구들은 RL 이 새로운 추론 능력을 생성하는지, 아니면 기존에 존재하던 정답을 더 효율적으로 샘플링하게 만드는지 명확히 구분하지 못했습니다.
- 의료 데이터는 고품질의 검증 가능한 보상 (verifiable rewards) 과 정제된 추론 데이터 확보가 어려워, SFT 와 RL 의 효과를 분리하기 어렵습니다.
- RL 적용 시 모달리티 (영상 유형) 간 전이 성능이 일관되지 않으며, RL 이 실제로 비용 대비 효과가 있는지 조건이 불명확합니다.

2. 방법론 (Methodology)

저자들은 MedMNIST-v2를 통제된 멀티모달 테스트베드로 사용하여 세 가지 핵심 연구 질문 (RQ) 을 해결했습니다.

가. 실험 설정

기저 모델: Qwen2.5-VL-7B-Instruct (MBase)
SFT 모델: OctoMed (MSFT, 의료 데이터로 미세조정됨)
RL 모델: QoQ-Med (MRL, 기존 RL 후학습 모델)
평가 지표:
- 시각적 인식: ViT(비전 인코더) 를 고정하고 선형 프로빙 (Linear Probing) 을 수행하여 표현력 분리 능력을 측정.
- 추론 능력 및 지원 (Support):
  - Accuracy@1: 탐욕적 디코딩 (Greedy Decoding) 시 단일 샘플 정확도.
  - Pass@K: K 개의 샘플 중 하나라도 정답일 확률 (모델이 정답을 '지원'하는지 여부).
- Gap 분석: Accuracy@1 과 Pass@K 의 차이 (Support Gap) 를 통해 RL 이 샘플링 효율을 높이는지, 아니면 새로운 능력을 추가하는지 판별.

나. 주요 실험 흐름

RQ1 (시각적 표현력): ViT 의 선형 프로빙을 통해 의료 태스크에서 시각적 특징이 이미 분리 가능한지 확인.
RQ2 (추론 능력의 한계): Accuracy@1 대 Pass@K 를 비교하여 모델이 정답을 알고 있지만 (높은 Pass@K), 탐욕적 디코딩으로 뽑지 못하는지 (낮은 Acc@1) 확인.
RQ3 (RL 의 효과 조건):
- 특정 태스크 (OrganA, Path, OCT) 에서 MBase 와 MSFT 를 기반으로 GRPO 스타일의 RL 을 수행.
- 도메인 내 (In-domain), 동일 모달리티 내 (Within-modality), 교차 모달리티 (Cross-modality) 전이 성능을 평가.
- RL 이 Acc@1 을 높이는지, Pass@K 를 유지하거나 떨어뜨리는지 분석.

다. 제안된 레시피 (Boundary-Aware Recipe)

분석 결과를 바탕으로 다음과 같은 단계별 후학습 전략을 제안했습니다.

지원 (Support) 진단: 작은 검증 세트로 Pass@K ( $S_K$ ) 와 Acc@1 ( $A$ ) 을 측정.
약한 지원 시 브리징 (Bridging): $S_K$ 가 임계값 ( $\tau$ ) 미만이면, RL 대신 SFT(또는 추가 미세조정) 를 통해 모델의 지원 범위 (Coverage) 를 확장.
충분한 지원 시 Sharpening: $S_K$ 가 충분하면 RL을 적용하여 출력 분포를 정교하게 다듬고 (Sharpening), Acc@1 을 향상시킴.

3. 주요 기여 및 결과 (Key Contributions & Results)

주요 발견 (Findings)

시각적 표현력: 기저 모델 (MBase) 도 많은 의료 태스크에서 시각적 특징을 분리할 수 있었으며, SFT 는 이를 더욱 향상시켰습니다. 반면, RL 은 시각적 표현력 (ViT Probe Accuracy) 을 일관되게 향상시키지 않았습니다. 즉, RL 의 효과는 시각적 인식 개선이 아닌 샘플링/정렬에 집중됩니다.
잠재적 지원 (Latent Support): 많은 태스크에서 Acc@1 은 Pass@K 보다 훨씬 낮았습니다. 이는 모델이 정답을 알고 있지만 (높은 Pass@K), 탐욕적 디코딩으로 이를 뽑아내지 못함을 의미합니다.
- SFT는 Acc@1 과 Pass@K 모두를 향상시켜 모델의 지원 범위를 확장합니다.
- RL은 Pass@K 를 확장하지 않고 기존 분포를 정교하게 만들어 Acc@1 을 높이는 경향이 있습니다. 오히려 지원이 약한 경우 (기저 모델에서 시작할 때) Pass@K 를 감소시키기도 합니다.
RL 의 효과 조건: RL 은 모델이 이미 상당한 수준의 지원 (높은 Pass@K) 을 가지고 있을 때 가장 효과적입니다.
- 효과적일 때: 도메인 내 또는 작은 모달리티 변화에서 Acc@1 을 높이고 샘플링 효율을 개선합니다.
- 비효율적일 때: 지원이 약한 상태 (대규모 모달리티 변화 또는 교차 모달리티) 에서 RL 을 적용하면 Acc@1 향상은 제한적이며, 오히려 Pass@K 가 감소할 수 있습니다.

실제 적용 및 성능 (Instantiation)

제안된 레시피를 적용하여 OctoMed-7B를 기반으로 PMC-VQA 의 균형 잡힌 8,000 개 다중 선택 질문 세트로 RL 후학습을 수행했습니다.
결과: 6 가지 의료 VQA 벤치마크 (PMC, MMMU, MedX-M, PathVQA, SLAKE, VQA-Rad) 에서 기존 SOTA 모델들 (QoQ-Med, MedVLThinker 등) 보다 평균 성능이 가장 높았습니다.
- 특히, 지원이 확장된 상태 (SFT 후) 에서 RL 을 적용함으로써 Acc@1 을 효과적으로 끌어올렸습니다.

4. 의의 및 결론 (Significance)

RL 의 역할 재정의: 의료 VLM 에서 RL 은 새로운 추론 능력을 '창조'하는 것이 아니라, SFT 를 통해 확보된 잠재적 능력 (Support) 을 효율적으로 추출하는 '샤프닝 (Sharpening)' 도구임을 증명했습니다.
전략적 가이드라인: 무조건적인 RL 적용보다는, 먼저 Pass@K 를 통해 모델의 지원 한계를 진단하고, 지원이 부족하면 SFT 로 확장한 뒤 RL 로 정교화하는 **'Boundary-Aware Recipe'**가 필수적입니다.
의료 AI 신뢰성: 이 접근법은 의료 분야에서 모델의 신뢰성과 안정성을 보장하면서도, RL 의 계산 비용을 효율적으로 사용할 수 있는 실용적인 프레임워크를 제공합니다.

요약

이 논문은 의료 VLM 에 RL 을 도입할 때, **"먼저 SFT 로 모델이 정답을 알 수 있는 범위 (Support) 를 넓히고, 그 후에 RL 로 정답을 뽑아내는 효율 (Sampling Efficiency) 을 높여야 한다"**는 핵심 통찰을 제시했습니다. 이를 통해 RL 과 SFT 의 역할을 명확히 분리하고, 더 강력하고 신뢰할 수 있는 의료 AI 모델을 구축하는 새로운 표준을 제시했습니다.