HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"한모VLM (HanMoVLM)"**이라는 새로운 인공지능을 소개합니다. 쉽게 말해, **"중국 전통 회화를 전문가처럼 감상하고 평가할 줄 아는 AI"**를 만든 연구입니다.

기존의 AI 는 그림을 보고 "산이네", "꽃이네"라고 대충 아는 수준이지만, 이 그림이 왜 훌륭하고, 어떤 감동을 주며, 얼마나 가치가 있는지 전문가 수준의 깊이 있는 평가를 하지는 못했습니다. 이 논문은 그 격차를 해결한 이야기입니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "그림을 보는 눈"이 없는 AI

기존의 일반적인 AI 는 마치 미술관에 처음 온 관광객과 같습니다.

관광객 (일반 AI): "오, 산이 그려졌네! 색깔도 예쁘다." (표면적인 인식)
전문가 (인간 화가/감정사): "이 그림의 먹 (잉크) 농담이 얼마나 자연스러운지, 붓터치가 어떻게 산의 기운을 살렸는지, 그리고 그림 속에 담긴 시적인 분위기가 얼마나 깊은지 평가해야 해."

기존 AI 는 이 '전문가의 눈'이 없어서, AI 가 만든 가짜 그림과 진짜 명화를 구별하지 못하거나, AI 가 만든 그림을 너무 잘 만들어서 "진짜 명화보다 낫다"고 잘못 평가하기도 했습니다.

2. 해결책: "한모VLM"이라는 초능력 감식가 등장

연구팀은 이 AI 에게 **중국 회화 전문가의 사고방식 (Chain-of-Thought)**을 심어주었습니다. 마치 명화 감식가에게 10 년간 제자를 가르치듯 AI 를 훈련시킨 것입니다.

이 AI 는 그림을 볼 때 다음과 같은 전문가적인 단계를 거칩니다:

전체 파악: "이 그림은 산수화인가, 꽃과 새 그림인가, 아니면 인물화인가?" (주제 파악)
중요 부분 찾기: "여기 이 바위와 나무가 가장 중요한 포인트야. 여기로 눈을 돌려보자." (관심 영역, RoI 분석)
전문적 평가:
- 필묵 (붓과 먹): 붓질이 살아있고 자연스러운가?
- 기운 (Spirit): 그림이 숨 쉬고 생동감 있는가?
- 의미 (Artistic Conception): 그림을 보고 어떤 깊은 생각이나 감정이 드는가?
최종 점수: 위 모든 것을 종합해 0 점부터 5 점까지 점수를 매깁니다.

3. 훈련 방법: "명작 vs 가짜"로 실전 연습

이 AI 를 가르치기 위해 **한모벤치 (HanMo-Bench)**라는 새로운 교재를 만들었습니다.

진짜 명화: 경매장에서 거래되는 고가의 진짜 중국화들.
AI 가 만든 그림: 최신 AI 가 그린 그림들.
전문가의 피드백: 실제 중국화 전문가들이 이 그림들을 보고 "왜 좋은지, 왜 나쁜지" 상세한 설명과 점수를 달아주었습니다.

AI 는 이 데이터를 보고 **"전문가가 어떻게 생각하는지"**를 배우고, 틀리면 다시 학습하여 점점 더 똑똑해졌습니다.

4. 결과: AI 가 만든 그림도 "가려내는" 수호자

이제 이 '한모VLM'은 두 가지 일을 할 수 있습니다.

감상가 역할: 어떤 그림이 들어오면, 일반인이 아닌 전문가처럼 그 그림의 가치를 정확히 평가합니다. 실험 결과, 실제 인간 전문가들의 평가와 90% 이상 일치했습니다.
수호자 역할 (테스트 타임 스케일링): 다른 AI 가 그림을 10 개 만들었을 때, 이 '한모VLM'이 그중 가장 예술적으로 훌륭한 그림 1 개만 골라냅니다. 마치 디렉터가 촬영한 100 컷 중 최고의 컷을 고르는 편집자 같은 역할입니다.

5. 핵심 요약 (비유로 정리)

기존 AI: 그림을 보고 "예쁘네"라고만 하는 초보 관광객.
한모VLM: 붓질 하나하나, 먹의 농담, 그림의 숨결까지 분석하는 베테랑 미술 평론가.
효과: 이 평론가가 AI 가 만든 그림을 심사해주니, AI 가 만든 그림의 질이 급격히 올라갔습니다.

결론적으로, 이 연구는 AI 가 단순히 그림을 '그리는' 것을 넘어, '예술의 가치를 판단하고 품질을 높이는' 단계로 발전했음을 보여줍니다. 이제 AI 는 그림을 그리는 화가이자, 그 그림을 평가하는 비평가까지 될 수 있게 된 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

최근 대규모 비전 - 언어 모델 (VLM) 은 일반적인 시각 이해와 논리적 추론에서 뛰어난 능력을 보여주지만, 특정 예술 분야 (특히 중국화) 에 대한 전문적인 평가에서는 여전히 한계를 보입니다. 기존 모델들이 겪는 주요 문제는 다음과 같습니다.

예술적 불일치 (Artistic Misalignment): 서구 중심의 데이터로 학습된 일반 VLM 은 중국화의 비구상적 미학과 문화적 맥락을 이해하지 못합니다.
이해 - 평가 간극 (Understanding-Evaluation GAP): 모델은 그림의 요소 (산, 강 등) 를 식별할 수는 있으나, 전문가 수준의 미적 기준에 따라 작품을 평가하고 점수를 매기는 능력은 부족합니다.
저품질 데이터: 전문가의 검토를 거친 고품질의 주석 데이터가 부족하여, 전문적인 추론을 학습하기 어렵습니다.

이러한 문제들로 인해 일반 VLM 은 중국화 평가에서 전문가와 유사한 수준의 판단을 내리지 못하며, 생성된 AI 예술 작품의 품질을 검증하는 데에도 한계가 있습니다.

2. 제안 방법론 (Methodology)

저자들은 중국화 평가 전문가의 사고 방식을 모방한 HanMoVLM을 제안하며, 이를 위해 다음과 같은 프레임워크를 구축했습니다.

가. HanMo-Bench (새로운 벤치마크 데이터셋)

구성: 경매 등급의 진품 중국화 (Authentic Masterpieces) 와 최신 AI 생성 작품 (Synthetic Artwork) 을 포함하는 13,000 개 이상의 데이터셋입니다.
평가 체계: 경매 가치와 AI 생성 품질을 0~5 점으로 통일하여 매핑하고, 전문가의 검토를 통해 라벨을 정제했습니다.
범주: 산수화 (Landscape), 화조화 (Flowers & Birds), 인물화 (Figure) 등 다양한 주제와 세부 스타일을 포함합니다.

나. 전문가 수준의 체인 오브 씽킹 (Expert-Level Chain-of-Thought, CoT)

모델이 전문가처럼 사고하도록 유도하는 구조화된 CoT 를 설계했습니다.

전체 이해 및 주제 식별: 그림의 내용을 파악하고 산수화, 화조화, 인물화 중 어떤 주제인지 분류합니다.
관심 영역 (RoI) 국소화: 그림의 핵심 시각 요소나 분석 가치가 있는 지역을 식별하고 위치를 지정합니다.
주제별 전문 평가: 분류된 주제에 맞는 평가 기준을 적용합니다.
3 단계 평가 (Three-tier Evaluation): 중국화의 전통적인 3 가지 기준을 적용합니다.
- 필묵 (Brush & Ink): 선의 질, 운필, 먹의 농담 등 기법적 측면.
- 기운 (Spirit Resonance): 작품의 생명력, 리듬, 에너지 흐름.
- 의경 (Artistic Conception): 시적 공간, 정서적 깊이, 문화적 함의.
최종 점수 산출: 위 분석을 종합하여 0~5 점의 최종 점수를 도출합니다.

다. 강화 미세 조정 (Reinforcement Fine-Tuning, RFT) 및 보상 함수

CoT 의 각 단계와 최종 결과의 정확성을 높이기 위해 GRPO (Group Relative Policy Optimization) 기반의 강화 학습을 적용했습니다.

보상 함수 (Reward Function):
- 정확도 보상 ( $R_{acc}$ ): 예측 점수와 정답 점수의 오차를 기반으로 계산.
- BERT 보상 ( $R_{BERT}$ ): 생성된 텍스트와 전문가 참조 텍스트 간의 의미적 유사도 측정.
- IoU 보상 ( $R_{mIoU}$ ): 예측된 관심 영역 (RoI) 과 정답 바운딩 박스 간의 겹침 정도 및 설명의 정확도 측정.
이 보상 함수를 통해 모델이 환각 (Hallucination) 을 줄이고 전문적인 추론 경로를 따르도록 학습시켰습니다.

라. 테스트 타임 스케일링 (Test-time Scaling) 을 통한 생성 품질 향상

학습된 HanMoVLM 을 **외부 검증자 (Verifier)**로 활용합니다.

텍스트 - 이미지 (T2I) 모델이 여러 개의 후보 이미지를 생성하면, HanMoVLM 이 각 이미지에 전문가 점수를 부여합니다.
가장 높은 점수를 받은 이미지를 최종 출력으로 선택하여 (Best-of-N 전략), 생성된 중국화의 예술적 품질을 향상시킵니다.

3. 주요 기여 (Key Contributions)

HanMo-Bench 구축: 중국화 평가 및 생성을 위한 최초의 전문 벤치마크로, 진품과 AI 생성물을 통합하여 평가 가능한 환경을 제공했습니다.
HanMoVLM 제안: 중국화 전문가의 사고 과정을 모방한 구조화된 CoT 를 통해 일반 VLM 을 전문 평가자로 변모시켰습니다.
새로운 보상 메커니즘: CoT 의 각 단계 (주제 식별, RoI, 평가 논리) 에 대한 세분화된 보상 함수를 설계하여 모델의 신뢰도와 정밀도를 크게 향상시켰습니다.
생성 모델 품질 개선: HanMoVLM 을 검증자로 활용하는 Test-time Scaling 전략을 통해, 기존 T2I 모델이 생성한 중국화의 예술적 완성도를 획기적으로 높였습니다.

4. 실험 결과 (Results)

평가 성능: HanMoVLM 은 기존 상용 모델 (Gemini, GPT 시리즈) 및 오픈소스 모델 (InternVL, Qwen 등) 보다 월등히 높은 성능을 보였습니다.
- 정확도 (Accuracy): 8B 모델 기준 46.67% (기존 모델 대비 약 2 배 이상 향상).
- 오차 (MAE/RMSE): 예측 점수와 정답 간의 오차가 현저히 감소했습니다.
- BERTScore: 전문가의 추론 과정과 모델의 답변 간 의미적 유사도가 49% 이상 향상되었습니다.
RoI 및 주제 분류: 관심 영역 식별 (mIoU) 과 주제 분류 정확도에서도 기존 모델 대비 큰 개선을 보였습니다.
인간 평가 (Human Study): 중국화 전문가 43 명을 대상으로 한 인간 평가에서, HanMoVLM 의 순위 결정은 전문가들의 선호도와 높은 상관관계 (Kendall's $\tau$ = 0.758, Spearman's $\rho$ = 0.845) 를 보였습니다.
생성 품질: HanMoVLM 을 검증자로 사용한 T2I 생성 결과는 기존 PickScore 나 Aesthetic Score 를 사용한 결과보다 인간 전문가의 선호도와 일치도가 훨씬 높았습니다.

5. 의의 및 결론 (Significance)

이 연구는 일반적인 시각 인식에서 전문적인 예술 평가로의 전환을 성공적으로 이루었습니다.

문화적 편향 해소: 서구 중심의 AI 모델이 가진 '예술적 맹목 (Artistic Blindness)'을 극복하고, 동양 미학 (특히 중국화) 에 대한 깊은 이해를 가능하게 했습니다.
자동화된 예술 평가: 인간 전문가의 노동을 대체하거나 보조할 수 있는 자동화된 고품질 예술 평가 시스템을 제시했습니다.
생성 AI 의 질적 도약: 생성 모델이 단순히 이미지를 만드는 것을 넘어, 예술적 가치가 높은 작품을 생성할 수 있도록 검증기를 도입함으로써 생성 AI 의 실용성을 높였습니다.

결론적으로 HanMoVLM 은 단순한 이미지 분류를 넘어, 문화적 맥락과 전문 지식을 기반으로 한 고급 추론 능력을 갖춘 VLM 의 새로운 패러다임을 제시합니다.