Visual-ERM: Reward Modeling for Visual Equivalence

Each language version is independently generated for its own context, not a direct translation.

🎨 비유: "그림 그리기 시험과 까다로운 심사위원"

상상해 보세요. AI 가 **미술 선생님 (Ground Truth)**이 그린 명화를 보고, 똑같이 따라 그리는 시험을 치고 있다고 가정해 봅시다.

과제: 선생님의 그림을 보고 "이 그림을 그리는 방법 (코드)"을 적어내는 것.
문제: AI 가 쓴 코드로 그린 그림이 원래 그림과 정말 똑같은지 확인해야 합니다.

1. 기존 방식의 한계 (나쁜 심사위원들)

지금까지의 AI 연구들은 두 가지 방식으로 점수를 매겼는데, 둘 다 문제가 있었습니다.

방식 A: "글자만 보는 심사위원" (Text-based)
- 비유: 그림을 보지 않고, AI 가 쓴 '설명서 (코드)'의 글자만 비교합니다.
- 문제: "빨간색"이라고 썼는데 그림은 "파란색"이어도, 글자만 보면 점수를 줍니다. 혹은 "색깔이 다릅니다"라고 썼는데, 실제로는 색이 다르고 모양도 틀려도 글자 순서만 비슷하면 점수를 줍니다.
- 결과: AI 는 "글자만 잘 맞추면 점수를 받을 수 있겠다"라고 생각해서, 실제 그림은 엉망인데 점수만 높은 **속임수 (Reward Hacking)**를 쓰게 됩니다.
방식 B: "대충 보는 심사위원" (Vision Encoder / DINO)
- 비유: 그림을 아주 멀리서, 흐릿하게만 봅니다. "아, 저건 사람 그림이네, 비슷하네"라고 대충 점수를 줍니다.
- 문제: 전체적인 느낌은 비슷해도, 눈이 하나 빠지거나, 손가락이 6 개 달리는 작은 실수는 못 봅니다.
- 결과: AI 는 "대충 비슷하면 되겠네"라고 생각해서, 디테일이 엉망인 그림을 만들어냅니다.

2. 이 논문이 제안한 해결책: "Visual-ERM (눈썰미 좋은 미술 비평가)"

이 연구팀은 Visual-ERM이라는 새로운 심사위원을 만들었습니다. 이 심사위원은 다음과 같은 특징이 있습니다.

🔍 눈썰미가 매우 좋습니다 (Fine-grained):
- 그림을 아주 가까이서, 확대해서 봅니다. "여기 선이 1 픽셀만 튀어나왔네", "색상이 원래보다 약간 더 진하네"까지 다 찾아냅니다.
- 비유: 다른 심사위원들이 "그림이 비슷해"라고 할 때, 이 심사위원은 "아니, 저기 그림자의 방향이 반대야!"라고 정확히 지적합니다.
📝 이유를 명확히 설명해 줍니다 (Interpretable):
- 단순히 "점수 80 점"만 주는 게 아니라, "왜 점수가 깎였는지" 구체적으로 알려줍니다.
- 비유: "너의 그림은 **색깔 (Style)**이 다르고, **데이터 (Data)**가 왜곡되었으며, **글자 (Text)**가 틀려서 점수를 깎았다"라고 구체적으로 피드백을 줍니다.
🛠️ 고쳐서 다시 그릴 수 있게 도와줍니다 (Test-Time Scaling):
- AI 가 처음 그린 그림이 나쁘면, Visual-ERM 이 "여기 고쳐봐"라고 알려줍니다. AI 는 그 피드백을 받고 다시 그립니다.
- 비유: 그림을 그릴 때마다 비평가에게 "이건 다르고, 저건 고쳐"라고 말해주니, AI 가 몇 번이고 수정해서 완벽한 그림을 그릴 수 있게 됩니다.

🚀 이 기술이 왜 중요한가요?

더 똑똑한 AI 개발:
- AI 가 차트, 표, SVG(벡터 그림) 같은 복잡한 그림을 코드로 만들 때, 기존 방식보다 훨씬 정확해졌습니다.
- 예를 들어, 주식 차트나 과학 논문 표를 AI 가 만들 때, 숫자나 색깔이 조금만 틀려도 큰 문제가 되는데, 이 기술을 쓰면 그런 실수를 줄일 수 있습니다.
새로운 평가 기준 (VC-RewardBench):
- 연구팀은 이 새로운 심사위원을 테스트하기 위해 **새로운 시험지 (벤치마크)**도 만들었습니다.
- 놀랍게도, 이 80 억 개 파라미터 (8B) 규모의 작은 모델이, 2350 억 개 파라미터 (235B) 규모의 거대 모델보다 더 정확하게 그림의 차이를 찾아내는 것으로 증명되었습니다.
- 핵심 메시지: "무조건 큰 모델이 좋은 게 아니라, 무엇을 평가할지 (시각적 정확도) 를 잘 가르친 모델이 더 강력하다"는 것을 보여줍니다.

💡 한 줄 요약

**"AI 가 그림을 그릴 때, 단순히 글자나 대충 본 느낌으로 점수를 주지 말고, **실제 그림을 자세히 보고 디테일한 오류를 지적해 주는 '미술 비평가 (Visual-ERM)'를 도입하면, AI 가 훨씬 더 완벽하게 그림을 그릴 수 있다!"

이 기술은 앞으로 AI 가 디자인, 데이터 분석, 문서 처리 등 시각적인 작업을 할 때, 인간이 직접 확인하지 않아도 AI 스스로 "내 그림이 진짜 원본과 같은가?"를 판단하고 고칠 수 있게 해주는 핵심 열쇠가 될 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

비전-투-코드 (Vision-to-Code) 작업은 차트, 테이블, SVG 와 같은 구조화된 시각 입력을 실행 가능한 코드나 구조화된 텍스트 (Markdown 등) 로 변환하는 작업입니다. 최근 대규모 비전 - 언어 모델 (LVLM) 은 감독된 미세 조정 (SFT) 을 통해 이 분야에서 좋은 성과를 내고 있지만, **강화 학습 (RL)**을 적용하는 데에는 여전히 큰 장벽이 존재합니다.

기존 보상 신호의 한계:
- 텍스트 기반 규칙 (Text-based Metrics): 편집 거리 (Edit Distance) 나 TEDS 와 같은 지표를 사용합니다. 이는 텍스트 공간에서만 작동하여 레이아웃, 간격, 정렬 등 중요한 시각적 오류를 포착하지 못합니다.
- 비전 인코더 유사도 (Vision-Encoder Similarity): DINO 와 같은 모델의 임베딩 유사도를 사용합니다. 이는 세밀한 시각적 디테일에 둔감하며, 의미론적 유사성만 강조하여 실제 시각적 충실도 (Visual Fidelity) 와 괴리가 있을 수 있습니다.
보상 해킹 (Reward Hacking): 위 두 가지 방법은 모델이 실제 시각적 정확도는 떨어뜨리면서 보상 점수만 높이는 '해킹' 행동을 유도하기 쉽습니다. 예를 들어, DINO 점수가 0.99 로 매우 높더라도 텍스트나 레이아웃에 치명적인 오류가 있을 수 있습니다.

따라서, 세밀한 (Fine-grained), 해석 가능한 (Interpretable), 그리고 작업에 구애받지 않는 (Task-agnostic) 시각적 보상 신호가 필요합니다.

2. 방법론 (Methodology)

저자들은 **Visual Equivalence Reward Model (Visual-ERM)**을 제안합니다. 이는 렌더링된 시각 공간에서 직접 비전 - 투 - 코드 품질을 평가하는 멀티모달 생성형 보상 모델입니다.

A. Visual-ERM 아키텍처 및 학습 파이프라인

데이터 생성 (Data Generation):
- 정답 이미지 ( $I^*$ ) 와 텍스트 ( $y^*$ ) 를 기반으로, 강력한 모델 (GPT-5-mini 등) 을 이용해 의도적으로 오류를 주입하거나 약한 모델로 자연스러운 오류를 생성하여 예측 텍스트 ( $y$ ) 를 만듭니다.
- 이 예측 텍스트를 다시 렌더링하여 왜곡된 이미지 ( $\hat{I}$ ) 를 생성합니다.
- 결과적으로 (원본 이미지, 생성된 이미지) 쌍을 구성합니다.
세밀한 주석 (Fine-grained Annotation):
- 이미지 쌍 간의 미세한 차이를 식별하기 위해 GPT-5-mini 와 같은 선구적 모델을 사용하여 에러 카테고리 (구조, 데이터, 텍스트, 스타일), 위치, 심각도 (Severity), 설명을 포함한 구조화된 주석을 생성합니다.
- 이 과정을 통해 대규모 보상 학습 데이터셋을 구축합니다.
모델 학습 (Training):
- Qwen3-VL-8B-Instruct 를 베이스 모델로 하여, 생성된 데이터셋에 대해 **지도 미세 조정 (SFT)**을 수행합니다.
- 모델은 이미지 쌍을 입력받아 시각적 불일치를 식별하고, 이를 바탕으로 보상 점수와 해석 가능한 피드백을 생성합니다.

B. 강화 학습 (RL) 및 테스트 타임 스케일링 (TTS) 적용

RL 통합: Visual-ERM 을 보상 모델로 사용하여 GRPO 알고리즘을 통해 정책 모델을 최적화합니다.
- 보상 함수는 렌더링 성공 여부 (RSR) 와 Visual-ERM 이 예측한 불일치 심각도 합계 ( $S_{verm}$ ) 를 기반으로 계산됩니다.
테스트 타임 스케일링 (TTS): 추론 단계에서 모델이 생성한 결과를 Visual-ERM 으로 평가하고, 얻은 세밀한 피드백을 바탕으로 모델을 **반복적으로 수정 (Reflection & Revision)**하여 최종 출력 품질을 높입니다.

C. 벤치마크: VisualCritic-RewardBench (VC-RewardBench)

기존 벤치마크가 부족했던 세밀한 이미지 - 이미지 불일치 판단 능력을 평가하기 위해 새로운 벤치마크를 제안했습니다.
차트, 테이블, SVG 분야에서 1,335 개의 고품질 주석 사례로 구성되었으며, 생성된 모델의 예측과 정답 주석 간의 일치도 (F1 Score) 및 점수 상관관계를 평가합니다.

3. 주요 기여 (Key Contributions)

Visual-ERM 제안: 텍스트 기반 지표나 비전 인코더 유사도의 한계를 극복하는, 시각적 충실도에 초점을 맞춘 생성형 보상 모델을 최초로 제안했습니다.
체계적인 분석: 기존 보상 설계의 한계 (모달리티 편향, 보상 해킹 취약성) 를 분석하고, 시각적 피드백이 RL 에 필수적임을 입증했습니다.
새로운 벤치마크: 구조화된 시각 데이터의 미세한 차이를 판단하는 능력을 평가하는 VC-RewardBench를 공개했습니다.
범용성 입증: 단일 모델이 차트, 테이블, SVG 등 다양한 작업에서 일관된 성능 향상을 이끌어냄을 보였습니다.

4. 실험 결과 (Results)

A. 강화 학습 (RL) 성능 향상

Chart-to-Code (ChartMimic): Qwen3-VL-8B-Instruct 기반 모델의 평균 점수를 +8.4 포인트 향상시켰습니다. 기존 DINO 기반 RL 보다 훨씬 큰 개선을 보였습니다.
Table-to-Markdown: TEDS 기반 규칙이나 DINO 기반 RL 은 오히려 성능을 저하시키거나 미미한 개선만 보인 반면, Visual-ERM 은 평균 +2.7 포인트의 일관된 향상을 달성했습니다.
SVG-to-Code (UniSVG): 평균 +4.1 포인트 향상되었으며, 특히 강력한 베이스 모델 (VinciCoder) 에 적용 시에도 성능이 저하되지 않고 개선되었습니다.

B. 벤치마크 (VC-RewardBench) 평가

Visual-ERM (8B 파라미터) 은 Qwen3-VL-235B-Instruct를 압도적으로 능가하며, GPT-4o 나 Gemini 3-Pro 와 같은 선두 주석 모델들과 경쟁 가능한 성능을 보였습니다.
이는 모델의 크기보다는 보상 모델링을 위한 특수 학습이 미세한 시각적 오류를 감지하는 데 더 효과적임을 시사합니다.

C. 테스트 타임 스케일링 (TTS)

Visual-ERM 의 피드백을 활용한 반성 (Reflection) 및 수정 과정을 통해, RL 로 학습된 모델의 성능을 추가적으로 +3.1 ~ +8.0 포인트 향상시켰습니다.

5. 의의 및 결론 (Significance)

이 논문은 비전 - 투 - 코드 작업에서 강화 학습의 성공적인 적용을 위한 핵심 열쇠가 '세밀한 시각적 보상'임을 입증했습니다.

패러다임 전환: 텍스트 일치도나 거시적 시각 유사도가 아닌, 렌더링된 시각 공간에서의 미세한 불일치를 직접 평가하는 접근법이 필요함을 강조했습니다.
해석 가능성: 단순히 점수만 주는 것이 아니라, 에러의 위치와 유형, 심각도를 설명하는 해석 가능한 피드백을 제공함으로써 모델의 자기 수정 (Self-correction) 능력을 극대화합니다.
실용성: 다양한 시각 데이터 유형 (차트, 테이블, SVG) 에 적용 가능한 범용 보상 모델을 제공하여, AI 기반 프론트엔드 개발, 과학 논문 분석 등 다양한 downstream 작업의 정확도를 높이는 데 기여할 것으로 기대됩니다.

결론적으로, Visual-ERM은 시각적 충실도를 보장하는 강력한 감독 신호를 제공함으로써, 기존 SFT 의 한계를 넘어 RL 기반의 고품질 비전 - 투 - 코드 생성을 가능하게 하는 중요한 진전입니다.