Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

📸 문제: "사진이 너무 커서 다 볼 수 없어!"

지금까지의 AI(대형 멀티모달 모델) 는 고해상도 사진 (예: 4K, 8K) 을 볼 때 큰 고민이 있었습니다.

상황: 사진이 너무 크면, AI 가 처리해야 할 정보 (픽셀) 가 기하급수적으로 늘어납니다.
결과: AI 는 마치 거대한 도서관 전체를 한 번에 읽으려다 머리가 터진 것처럼, 중요한 부분 (보물) 은 놓치고 불필요한 정보 (책장 전체) 에만 집중하게 됩니다.
기존 해결책: 사진의 크기를 줄여서 (저해상도로) 보게 하거나, 사람이 "여기 보물이 있어요"라고 손가락으로 가리키는 **정답지 (레이블)**를 만들어 AI 에게 가르쳤습니다. 하지만 정답지를 만드는 건 비용이 너무 많이 들고, 사람이 일일이 가르쳐주지 않아도 스스로 배울 수는 없었습니다.

💡 해결책: HART (하트) - "스스로 초점을 맞추고 확인하는 AI"

이 논문은 HART라는 새로운 방법을 제안합니다. 이는 **"고해상도 주석 없는 추론 기술"**이라는 뜻입니다.

1. 비유: "현미경으로 다시 보는 탐정"

기존 AI 는 사진을 한 번 보고 답을 말하면 끝났다면, HART 는 다음과 같이 행동합니다.

예상하기: 먼저 사진 전체를 훑어보며 "아마도 보물은 이쪽 구석에 있을 거야"라고 **대략적인 위치 (ROI)**를 예측합니다.
확대하기: 그 예측한 부분만 자른 뒤, 원본 사진은 치워버립니다. (이게 핵심입니다!)
재확인하기: "자, 이제 원본 사진은 없는데, 내가 잘라낸 이 작은 부분만 보고 문제를 풀 수 있니?"라고 AI 에게 다시 물어봅니다.
- 만약 잘라낸 부분만으로도 문제를 정확히 푼다면? → "아하! 내가 처음에 찾은 위치가 정말 중요했구나!"라고 스스로 확인합니다.
- 만약 못 푼다면? → "아, 내가 잘못 찾았구나. 다시 찾아봐야지."라고 스스로 수정합니다.

이 과정을 통해 AI 는 사람의 눈처럼 중요한 부분만 집중해서 보는 능력 (Grounding) 을 스스로 기르게 됩니다.

2. 학습 방법: AP-GRPO (에이피 - 그르포) - "정답만 주는 게 아니라 '과정'을 칭찬하는 선생님"

기존의 학습 방식은 "정답을 맞췄으면 점수 +1, 틀리면 0"처럼 결과만 평가했습니다. 그래서 AI 가 운 좋게 정답을 맞췄더라도, 실제로 중요한 부분을 잘못 찾았을 수도 있었습니다. (예: 보물 위치를 엉뚱하게 찾았는데, 운 좋게 정답을 맞춰서 칭찬을 받음)

이 논문은 AP-GRPO라는 새로운 학습 규칙을 만들었습니다.

규칙: "정답을 맞췄더라도, 내가 잘라낸 부분 (중요한 정보) 이 정말 핵심이었는지 다시 확인해 봐. 만약 핵심을 잘 찾아냈다면 더 큰 점수를 주고, 엉뚱한 부분을 잘라냈다면 점수를 깎아."
효과: AI 는 단순히 정답을 맞추는 것보다, 정확한 위치를 찾아내는 것에 더 집중하게 됩니다. 마치 "정답을 맞춘 학생 중에서도, 문제의 핵심을 정확히 파악한 학생에게 더 큰 상을 주는" 것과 같습니다.

🏆 결과: 왜 이것이 중요한가요?

이 방법을 적용한 AI 는 다음과 같은 성과를 거두었습니다.

더 높은 정확도: 복잡한 고해상도 이미지 (자율주행, 위성 사진, 복잡한 차트 등) 에서 문제를 훨씬 더 잘 풀었습니다.
비용 절감: 사람이 "여기 보물 있어요"라고 일일이 가르쳐주지 않아도 (Annotation-free), AI 가 스스로 학습할 수 있습니다.
이해 가능성: AI 가 왜 그 답을 냈는지, 어떤 부분을 보고 결론을 내렸는지를 우리가 눈으로 확인할 수 있게 되었습니다. (블랙박스에서 탈출!)

📝 한 줄 요약

"이 연구는 AI 에게 '사진 전체를 다 보지 말고, 중요한 부분만 잘라내서 다시 확인해보라'는 훈련을 시켜, 사람이 일일이 가르쳐주지 않아도 스스로 고해상도 이미지를 완벽하게 이해하게 만들었습니다."

이제 AI 는 거대한 도서관 전체를 읽는 대신, 정확한 책장 한 구석만 찾아내어 보물을 찾아내는 능숙한 탐정이 된 셈입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

현재 대규모 멀티모달 모델 (LMMs) 은 고해상도 이미지 입력을 처리하는 추론 과정에서 심각한 한계를 겪고 있습니다.

고해상도 입력의 한계: 이미지 해상도가 높아질수록 토큰 수가 제곱으로 증가하여 계산 비용이 급증하고, 불필요한 정보가 많아집니다. 이를 해결하기 위해 기존 모델들은 입력 이미지의 해상도를 제한하거나 (Downsampling) 최대 픽셀 수를 제한하는데, 이로 인해 중요한 시각적 정보가 손실됩니다.
기존 시각적 Grounding 방법의 문제: 인간이 고해상도 이미지에서 핵심 영역 (ROI) 을 찾아내는 것처럼, 모델이 핵심 영역을 식별하고 고해상도 정보를 참조하는 '시각적 Grounding' 방식이 제안되었습니다. 그러나 기존 방법들은 대부분 **비용이 많이 드는 인간 주석 (Bounding Box 등)**을 필요로 하거나, 강화 학습 (RL) 을 사용할 경우 최종 답변의 정답 여부만 보상 (Reward) 으로 사용합니다.
보상 오지정 (Reward Misspecification) 문제: 최종 답변이 맞았더라도 모델이 잘못된 영역을 참조했을 때에도 보상을 받는 경우가 많습니다. 이는 모델이 부정확한 위치 지정 (Localization) 을 학습하도록 유도하여, 시각적 Grounding 성능을 오히려 저하시키는 결과를 초래합니다.

2. 제안 방법: HART (Methodology)

저자들은 **HART (High-resolution Annotation-free Reasoning Technique)**라는 폐쇄 루프 (Closed-loop) 프레임워크를 제안하여 외부 시각 주석 없이 LMM 의 고해상도 추론 및 위치 지정 능력을 향상시킵니다.

핵심 구성 요소

폐쇄 루프 검증 프레임워크:
- 모델은 먼저 다운샘플링된 전체 이미지와 질문을 바탕으로 핵심 영역 (ROI) 을 예측합니다.
- 이후, 원본 전체 이미지를 숨기고 예측된 ROI 만을 잘라낸 서브 이미지 (Cropped Sub-images) 만을 제공하여 동일한 질문에 답하도록 합니다.
- 만약 모델이 잘라낸 부분만으로 정답을 도출할 수 있다면, 이는 모델이 올바른 핵심 영역을 찾아냈음을 의미합니다. 이를 통해 모델은 **자기 검증 (Self-verification)**을 수행하며, 추가적인 주석 없이 위치 지정의 정확성을 평가할 수 있습니다.
AP-GRPO (Advantage Preference Group Relative Policy Optimization):
- 기존 GRPO 알고리즘을 개선한 강화 학습 미세 조정 전략입니다.
- 동적 가중치 부여: 정답을 도출한 샘플 중에서도 '올바른 위치 지정'이 이루어진 샘플에 더 높은 가중치 ( $\mu_1$ ) 를 부여하고, KL 페널티 계수 ( $\mu_2$ ) 를 동적으로 조절합니다.
- 이론적 기반: 이 방식은 보상 오지정 문제를 완화하여, 정답이 맞다는 것이 곧 시각적 인식이 정확하다는 것을 의미하도록 학습을 유도합니다. (Proposition 2 증명)
학습 단계:
- Stage 1 (RL): AP-GRPO 를 사용하여 모델이 핵심 영역을 정확히 찾아내고, 해당 영역만으로 추론할 수 있도록 학습시킵니다.
- Stage 2 (SFT): RL 단계에서 얻은 능력을 바탕으로, 원본 고해상도 이미지를 모두 볼 수 있는 상태에서 정답을 생성하도록 지도 학습 (SFT) 을 수행하여 최종 추론 능력을 극대화합니다.

3. 주요 기여 (Key Contributions)

주석 없는 직접 최적화: 외부 시각 주석 (Bounding Box 등) 없이도 LMM 의 시각적 위치 지정 (Grounding) 능력을 직접 최적화할 수 있는 새로운 프레임워크를 제시했습니다.
AP-GRPO 알고리즘: 보상 오지정 문제를 해결하고, 올바른 위치 지정을 가진 샘플을 우선적으로 학습하도록 유도하는 강화 학습 전략을 개발했습니다.
해석 가능한 추론 경로: 모델이 어떤 영역을 보고 답을 도출했는지 확인 가능하게 하여, 추론 과정의 투명성을 높였습니다.
효율성: 고해상도 이미지의 불필요한 토큰 처리를 줄이고 핵심 정보에 집중함으로써 계산 효율성을 높였습니다.

4. 실험 결과 (Results)

저자들은 MME-RealWorld-Lite, TreeBench, V* Bench, HR-Bench-4K/8K, MMStar 등 다양한 고해상도 벤치마크에서 HART 의 성능을 검증했습니다.

성능 향상:
- MME-RealWorld-Lite: 기존 최강의 오픈소스 모델 및 비공개 모델 (GPT-4o 등) 을 능가하며, **62.4%**의 정확도를 기록했습니다. (기반 모델 Qwen2.5-VL-7B 대비 +20.1% 향상)
- TreeBench: 분포 외 (Out-of-Distribution) 데이터셋에서도 **43.7%**의 정확도를 기록하여 오픈소스 모델 중 최상위권을 기록했습니다.
- HR-Bench-8K: 8K 해상도 이미지 처리에서 **71.9%**의 정확도를 달성했습니다.
Grounding 정확도:
- TreeBench 와 Visual CoT 데이터셋에서 위치 지정 정확도를 평가한 결과, AP-GRPO 는 기존 방법 (GRPO, MGPO) 대비 Grounding 정확도가 크게 향상되었습니다 (TreeBench 에서 +25.2% 향상).
- 특히, "정답은 맞았으나 위치 지정은 틀린" 경우의 비율이 기존 모델 대비 현저히 감소하여, 보상 오지정 문제가 해결되었음을 입증했습니다.
모델 확장성: Qwen2.5-VL-7B 뿐만 아니라 InternVL3-8B 에 적용했을 때도 유사한 성능 향상을 보였습니다.

5. 의의 및 결론 (Significance)

이 논문은 고해상도 멀티모달 모델의 핵심적인 병목 현상인 '해상도 제한'과 '주석 데이터 부족' 문제를 동시에 해결하는 새로운 패러다임을 제시합니다.

비용 효율성: 고비용의 인간 주석 데이터 없이도 모델이 스스로 핵심 영역을 학습하고 검증할 수 있게 함으로써, 고해상도 시각 작업의 접근성을 높였습니다.
신뢰성 있는 추론: 단순히 정답을 맞추는 것을 넘어, '어떤 시각적 근거'로 답을 도출했는지 검증 가능하게 하여 모델의 신뢰성을 높였습니다.
미래 전망: 현재 7B 파라미터 모델에 적용되었으나, 향후 더 큰 규모의 모델과 데이터셋으로 확장될 경우 고해상도 시각 이해 (원격 감지, 자율 주행 등) 분야에서 혁신적인 발전을 이끌 것으로 기대됩니다.

요약하자면, HART는 강화 학습을 통해 모델이 스스로 "어디를 봐야 답을 알 수 있는지"를 학습하게 함으로써, 외부 주석 없이도 고해상도 이미지에서 정밀한 시각적 추론을 가능하게 하는 획기적인 방법론입니다.

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

📸 문제: "사진이 너무 커서 다 볼 수 없어!"

💡 해결책: HART (하트) - "스스로 초점을 맞추고 확인하는 AI"

1. 비유: "현미경으로 다시 보는 탐정"

2. 학습 방법: AP-GRPO (에이피 - 그르포) - "정답만 주는 게 아니라 '과정'을 칭찬하는 선생님"

🏆 결과: 왜 이것이 중요한가요?

📝 한 줄 요약

1. 문제 정의 (Problem)

2. 제안 방법: HART (Methodology)

핵심 구성 요소

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers