Each language version is independently generated for its own context, not a direct translation.

🎨 PyVision-RL: 그림과 영상을 '직접 만져보며' 생각하는 AI 의 탄생

이 논문은 **'PyVision-RL'**이라는 새로운 인공지능 (AI) 시스템을 소개합니다. 이 시스템은 단순히 그림이나 영상을 '바라보는' 것을 넘어, **직접 도구를 꺼내 써보며 문제를 해결하는 '능동적인 탐정'**과 같습니다.

기존의 AI 는 그림을 보고 "아, 이건 개네"라고 말만 했지만, PyVision-RL 은 "잠깐, 이 개가 어디에 있는지 정확히 확인해 볼까?"라고 말하며 확대경 (줌인) 을 들거나, 자를 대거나, 심지어 영상의 특정 장면을 잘라내어 직접 분석합니다.

이 놀라운 시스템을 어떻게 만들었는지, 그리고 왜 중요한지 쉬운 비유로 설명해 드릴게요.

1. 문제: AI 가 "귀찮아"져서 도구를 안 쓰는 현상 (Interaction Collapse)

기존에 AI 를 훈련시킬 때, 강화 학습 (RL) 을 쓰면 이상한 일이 벌어졌습니다.

상황: AI 에게 "이 그림을 분석해 봐"라고 하고 도구를 쓰면 점수를 주었습니다.
결과: AI 는 "도구를 쓰는 게 귀찮고, 그냥 대충 말로만 답해도 점수를 받을 수 있겠네?"라고 깨닫고, 도구를 아예 쓰지 않는 나쁜 습관을 들었습니다. 이를 논문에서는 **'상호작용 붕괴 (Interaction Collapse)'**라고 부릅니다.

비유: 마치 학교에서 "숙제를 직접 풀어오면 상을 주겠다"고 했을 때, 학생이 "아, 그냥 답지 베끼면 상 받겠네?"라고 생각해서 아예 공책을 안 펼치는 상황과 같습니다.

2. 해결책: "노력한 만큼 보상해 주는" 새로운 훈련법

저자들은 이 문제를 해결하기 위해 두 가지 핵심 전략을 도입했습니다.

① "오버샘플링 - 필터링 - 랭킹" (과도한 시뮬레이션 후 선별)

AI 가 문제를 풀 때, 한 번에 한 가지 방법만 시도하는 게 아니라 여러 가지 방법 (롤아웃) 을 동시에 시도하게 합니다.

과도한 시도 (Oversampling): AI 에게 같은 문제를 32 번이나 다르게 풀어보게 합니다.
불량품 제거 (Filtering): 실행 오류가 나거나 아예 답이 없는 엉뚱한 시도는 버립니다.
가장 좋은 것만 뽑기 (Ranking): 그중에서 "적당히 어렵지만, 도구를 잘 쓴" 시나리오만 골라내어 학습시킵니다.

비유: 요리사가 새로운 요리를 개발할 때, 한 번에 32 가지 레시피를 다 만들어보고, 실패한 거나 너무 쉬운 거는 버린 뒤, 가장 맛있고 정성들인 요리만 레시피북에 남기는 것과 같습니다.

② "누적 도구 보상" (도구를 쓸수록 더 큰 점수)

단순히 "정답"만 맞췄다고 점수를 주는 게 아니라, **"도구를 몇 번이나 썼느냐"**에 따라 점수를 더 줍니다.

AI 가 도구를 쓸수록 점수가 올라가도록 설계했습니다.
핵심: "도구를 쓰지 않고 대충 맞춘 정답"보다는, "도구를 열심히 써서 맞춘 정답"에 더 높은 점수를 줍니다.

비유: 시험에서 "정답만 맞으면 100 점"이 아니라, **"풀이 과정을 꼼꼼히 보여주고 도구를 쓴 학생에게 120 점"**을 주는 식입니다. 그래서 학생들은 도구를 쓰지 않고는 못 견디게 됩니다.

3. 두 가지 새로운 AI: PyVision-Image & PyVision-Video

이 기술을 적용해 두 가지 모델을 만들었습니다.

🖼️ PyVision-Image (그림 분석 전문가)

역할: 고해상도 그림을 보고 세부적인 부분을 찾아내거나, 수학 문제를 풉니다.
특징: 그림을 확대 (Zoom-in) 하거나, 색상을 분석하는 코드를 직접 짭니다.
성과: 기존 모델들보다 훨씬 정확하게 그림 속 숨겨진 단서를 찾아냅니다.

🎥 PyVision-Video (영상 분석 전문가) - 가장 혁신적인 부분!

기존 방식의 문제: 영상을 분석할 때, 보통 영상 전체를 쭉 쪼개서 (프레임 샘플링) AI 에게 보여줍니다.
- 비유: 1 시간짜리 영화를 볼 때, 1 초마다 한 장씩 찍어서 3,600 장의 사진을 AI 에게 보여주는 것입니다. 메모리도 많이 먹고, 중요한 부분도 놓칠 수 있습니다.
PyVision-Video 의 방식 (On-Demand Context Construction):
- 원리: "무엇을 찾아볼지" AI 가 스스로 판단합니다.
- 행동: AI 가 "아, 이 부분에서 사건이 일어났구나!"라고 생각하면, 그때그때 필요한 장면만 직접 잘라내어 보여줍니다.
- 비유: 영화를 볼 때 전체 스토리를 다 보는 게 아니라, "범인이 나오는 장면"과 "범인이 도망가는 장면"만 AI 가 직접 찾아서 편집해 보여주는 것입니다.

결과: 영상 분석에 필요한 데이터 양 (토큰) 을 90% 이상 줄이면서도, 정확도는 오히려 더 높아졌습니다. (기존 모델은 45,000 개의 데이터 조각을 썼는데, PyVision-Video 는 5,000 개만 써도 더 잘합니다!)

4. 왜 이 연구가 중요한가요?

AI 가 '진짜' 사고를 합니다: 단순히 말로만 답하는 게 아니라, 직접 도구를 써서 실험하고 검증하는 과정을 거칩니다.
비용 절감: 영상을 분석할 때 불필요한 데이터를 다 보지 않고, 필요한 부분만 골라보기 때문에 연산 비용이 훨씬 적게 듭니다.
오픈 소스: 이 기술은 비밀이 아니라, 누구나 사용할 수 있도록 공개되었습니다.

📝 한 줄 요약

"PyVision-RL 은 AI 가 그림과 영상을 볼 때, '눈으로만 보는' 수동적인 관찰자가 아니라, '자르고, 붙이고, 분석하는' 능동적인 탐정으로 변신하게 만든 기술입니다. 특히 영상 분석 시 '필요한 장면만 골라보는' 방식을 도입해, 훨씬 빠르고 정확하게 문제를 해결합니다."

이제 AI 는 단순히 "그림을 보고 말하기"를 넘어, "그림을 가지고 놀며 문제를 해결하는" 단계로 진화했습니다! 🚀

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 멀티모달 에이전트 모델 (특히 강화 학습을 적용한 경우) 은 다음과 같은 주요 한계를 겪고 있습니다:

상호작용 붕괴 (Interaction Collapse): RL 미세 조정 과정에서 모델이 도구를 사용하는 횟수를 줄이고, 다중 턴 (multi-turn) 추론을 피하는 경향이 있습니다. 이는 에이전트 행동의 이점을 제한하며, 텍스트 추론에서 성공적인 '테스트 시간 확장 (test-time scaling)'이 비전 영역에서는 효과적이지 않다는 의문을 제기하게 했습니다.
유연성 부족: 기존 접근법은 주로 크롭 (cropping), 줌인 (zooming), 비디오 클리핑 등 미리 정의된 정적 (static) 도구 세트에 의존하여 특정 작업에는 효과적이지만 유연성이 떨어집니다.
비디오 처리의 비효율성: 비디오 이해 작업에서는 전체 프레임을 균일하게 샘플링하여 모델에 주입하는 방식이 일반적이어서, 불필요한 시각 토큰 (visual tokens) 을 소모하고 계산 효율성이 낮습니다.

2. 방법론 (Methodology)

PyVision-RL 은 **Python 을 기본 도구 (primitive tool)**로 사용하여 동적 도구 (dynamic tooling) 를 가능하게 하며, 다음과 같은 핵심 기술들을 통합합니다.

A. 에이전트 스캐폴드 및 상호작용 프로토콜

동적 도구 사용: 모델은 자연어 추론과 실행 가능한 Python 코드 블록을 번갈아 생성합니다. 코드는 샌드박스 환경에서 실행되며, 그 결과 (텍스트 출력 또는 렌더링된 이미지) 가 다시 모델의 컨텍스트에 피드백됩니다.
이미지 vs 비디오 처리 차이:
- PyVision-Image: 이미지는 모델 컨텍스트와 Python 런타임 모두에 로드되어 에이전트가 이미지를 직접 조작할 수 있습니다.
- PyVision-Video (On-demand Context Construction): 전체 비디오는 Python 런타임에만 로드됩니다. 모델은 추론 과정에서 필요한 특정 프레임만 Python 코드를 통해 선택적으로 샘플링하고 시각화합니다. 이는 불필요한 토큰 사용을 획기적으로 줄입니다.

B. 강화 학습 전략

누적 도구 보상 (Accumulative Tool Reward):
- 기존 RL 은 정답 여부만 보상하여 도구를 적게 쓰는 방향으로 수렴하는 경향이 있었습니다.
- PyVision-RL 은 정답이 맞을 때 (R_acc = 1), 도구 호출 횟수 (n_tc) 에 비례하는 추가 보상을 부여합니다.
- 공식: $R = R_{acc} + 0.1 \cdot n_{tc} \cdot \mathbb{1}\{R_{acc}=1\}$
- 이를 통해 모델이 생산적인 다중 턴 상호작용을 하도록 장려합니다.
오버샘플링 - 필터링 - 랭킹 (Oversampling-Filtering-Ranking) 롤아웃 전략:
- 오버샘플링: 각 프롬프트에 대해 여러 개의 롤아웃 (추론 경로) 을 생성합니다.
- 필터링: 실행 오류가 있거나 (broken trajectory), 그룹 내 모든 샘플의 보상이 0 인 경우 (학습 신호 부재) 를 제거합니다.
- 랭킹 (표준편차 정렬): 남은 그룹을 그룹 내 보상 표준편차 (sample difficulty 의 대리 지표) 로 정렬하여, 적당히 어려운 샘플 (정답과 오답이 혼재된 경우) 을 우선적으로 학습에 사용합니다. 이는 학습 안정성을 높이고, 정답이지만 도구 사용이 적은 샘플이 부정적 이득 (negative advantage) 을 받아 학습이 억제되는 현상을 방지합니다.
GRPO 최적화 개선:
- 기존 GRPO 의 이득 (advantage) 계산에서 그룹 내 표준편차 정규화 항을 제거하여 학습의 안정성을 높였습니다.

3. 주요 기여 (Key Contributions)

PyVision-RL 프레임워크: 오픈 가중치 멀티모달 모델을 위한 통합 RL 파이프라인을 제시하며, 이미지와 비디오 이해를 모두 지원합니다.
상호작용 붕괴 해결: 누적 도구 보상과 샘플링 전략을 통해 모델이 도구 사용을 줄이는 현상을 방지하고, 긴 시간의 다중 턴 추론을 안정적으로 학습하게 합니다.
온디맨드 컨텍스트 구축 (On-demand Context Construction): 비디오 이해를 위해 전체 프레임을 로드하지 않고, 필요 시에만 프레임을 추출하는 방식을 도입하여 시각 토큰 효율성을 극대화했습니다.
PyVision-Image 및 PyVision-Video 모델 공개: 각각 이미지와 비디오 이해를 위한 SOTA(최신 최고 성능) 모델을 개발하고 오픈소스로 공개했습니다.

4. 실험 결과 (Results)

이미지 벤치마크 (PyVision-Image)

시각 검색 (Visual Search): V*, HRBench-4K, HRBench-8K 에서 기존 정적 도구 기반 모델 (DeepEyes-v2 등) 과 동적 도구 모델들을 모두 능가했습니다. 특히 V* 에서 +6.9%, WeMath 에서 +9.6% 의 성능 향상을 기록했습니다.
멀티모달 추론: 복잡한 수학 및 시각 추론 작업에서 새로운 SOTA 를 달성했습니다.
에이전트 추론: 다중 턴 도구 사용이 필요한 TIR-Bench 에서도 기존 모델 대비 유의미한 개선을 보였습니다.

비디오 벤치마크 (PyVision-Video)

성능: VSI-Bench 에서 VITAL(비디오 클리핑 도구 사용 모델) 보다 +2.2% 높은 정확도 (44.0% vs 41.8%) 를 달성했습니다.
효율성: 가장 중요한 성과는 효율성입니다.
- PyVision-Video 는 샘플당 평균 5K 시각 토큰만 사용했습니다.
- 반면, Qwen2.5-VL-7B 는 45K 토큰을 사용하며 38.0% 정확도를 보였습니다.
- 즉, 9 배 적은 토큰으로 더 높은 정확도를 달성하여 성능과 효율성 간의 최적 균형을 증명했습니다.

5. 의의 및 결론 (Significance)

지속 가능한 상호작용의 중요성 증명: 적절한 보상 설계와 학습 전략을 통해, 에이전트 모델이 도구를 지속적으로 사용하는 것이 비전 추론의 성능 향상과 효율성 확보에 필수적임을 입증했습니다.
확장 가능한 멀티모달 에이전트: 정적 도구 세트의 한계를 넘어, Python 을 통한 동적 도구 생성이 이미지뿐만 아니라 복잡한 비디오 이해 작업에서도 효과적임을 보였습니다.
실용적 가치: 온디맨드 컨텍스트 구축 방식을 통해 비디오 처리 시 발생하는 높은 계산 비용과 토큰 소모 문제를 해결하여, 실제 대규모 멀티모달 에이전트 배포에 대한 실용적인 솔루션을 제시했습니다.

이 연구는 오픈 소스 기반의 강력한 에이전트 비전 모델을 구축하는 새로운 표준을 제시하며, 향후 멀티모달 AI 의 추론 능력과 도구 활용 능력을 확장하는 데 중요한 이정표가 될 것입니다.

PyVision-RL: Forging Open Agentic Vision Models via RL