HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

本文提出了 HanMoVLM,这是一种针对中国绘画领域的大规模视觉语言模型,通过引入专家验证的思维链(CoT)和基于真实拍卖数据的 HanMo-Bench 数据集,实现了专业级的画作评估,并作为测试时扩展的核心组件显著提升了中国画作生成的质量。

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个有趣的故事:如何让原本“只懂看热闹”的 AI,变成一位“懂门道”的中国画鉴赏专家。

我们可以把这项研究想象成给 AI 请了一位“国画私教”,并给它发了一本“专家鉴定手册”

以下是用大白话和比喻为你拆解的核心内容:

1. 痛点:AI 为什么看不懂中国画?

现在的通用大模型(就像是一个博学的游客),它们能认出画里有山、有水、有鸟,这就像游客能说出“这是山,那是树”。
但是,当你要它评价这幅画好不好值多少钱意境深不深时,它就懵了。

  • 比喻:游客能认出画里是“黄公望”,但不懂为什么黄公望的笔法叫“披麻皴”,也不懂为什么留白比画满更高级。
  • 问题:现有的 AI 缺乏中国画的“行话”和“审美逻辑”,导致它们给出的评价要么太肤浅,要么完全跑偏(比如把水墨画当成普通插画来夸)。

2. 解决方案:HanMoVLM(翰墨大模型)

作者们造了一个新模型叫 HanMoVLM(“翰墨”代表笔墨纸砚,象征中国书画)。它不再只是“看图说话”,而是学会了像专家一样“思考”。

核心秘诀一:专家思维链 (Chain-of-Thought)

以前的 AI 是“看到画 -> 直接打分”。
现在的 HanMoVLM 是**“像老专家一样一步步推理”。论文设计了一套“专家思维剧本”**,强迫 AI 按这个流程走:

  1. 看全貌:先说这画讲的是什么(是山水、花鸟还是人物?)。
  2. 找重点:像用放大镜一样,找出画里最精彩、最值得研究的局部(Region of Interest)。
  3. 对号入座:根据题材用不同的标准。
    • 如果是山水画:不看画得像不像照片,看“气韵”流不流畅,留白有没有意境。
    • 如果是人物画:不看脸画得细不细,看眼神有没有神,姿态自不自然。
  4. 三层打分
    • 笔墨(基本功):线条有没有力?墨色有没有层次?
    • 气韵(生命力):画里的东西是不是“活”的?有没有呼吸感?
    • 意境(灵魂):看完画能不能让人产生联想,有没有文化深度?
    • 比喻:就像评菜,先看刀工(笔墨),再尝味道(气韵),最后看这道菜有没有“灵魂”和故事(意境)。

核心秘诀二:专家奖励机制 (Reward Function)

光有剧本还不够,AI 可能会偷懒或瞎编(幻觉)。
作者设计了一个**“阅卷老师”**(奖励函数):

  • 如果 AI 找对了重点区域,给分。
  • 如果 AI 的理由和专家写的理由意思接近,给分。
  • 如果 AI 打出的分数和真实的市场估价一致,给分。
    通过这种“做对一步给一步糖”的训练(强化学习),AI 慢慢就学会了**“说人话、懂行规”**。

3. 新教材:HanMo-Bench(翰墨题库)

为了训练这个 AI,作者们建了一个超级题库:

  • 真迹:从拍卖行扒下来的真古董,有真实的估价。
  • AI 画作:用其他 AI 生成的画作,用来测试新模型能不能分辨“真假”和“高低”。
  • 专家标注:每一张画都有真人专家写的“鉴定报告”和“打分理由”,作为标准答案。
    这就像给 AI 找了一群真正的国画大师当私教,手把手教它怎么鉴赏。

4. 实际应用:给 AI 画画当“质检员”

这个模型不仅能评画,还能帮 AI 画画

  • 场景:现在的 AI 画画(文生图),一次能生成 8 张图。以前我们不知道哪张好,只能随机选。
  • 新用法:让 HanMoVLM 当**“质检员”**。它把这 8 张图都过一遍眼,挑出那张最有“中国味”、意境最好的,直接选出来。
  • 比喻:就像以前是“盲盒抽奖”,现在是“专家严选”。实验证明,经过它筛选出来的画,人类专家也觉得更好看。

总结

这篇论文的核心就是:把 AI 从“看图识字的小学生”,培养成了“懂笔墨、知气韵的国画鉴赏家”。

它不再只是冷冰冰地识别物体,而是学会了用中国人的审美逻辑去理解艺术。这不仅让 AI 能更准确地评价中国画,还能反过来指导 AI 画出更符合东方审美的作品。简单来说,就是让 AI 真正“懂”了中国画