MJ1: Multimodal Judgment via Grounded Verification

本文提出了通过结构化视觉验证链和反事实一致性奖励进行强化学习的 MJ1 模型,该模型仅用 30 亿参数便在 MMRB2 基准上超越了 Gemini-3-Pro 等超大模型,证明了基于视觉证据的验证机制能显著提升多模态判断能力而无需增加模型规模。

Bhavesh Kumar, Dylan Feng, Leonard Tang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MJ1 的“超级裁判”,它专门用来评判人工智能生成的图片好不好。

想象一下,现在的 AI 就像是一个才华横溢但有点“近视”的画家。当它画完画,我们需要一个裁判来打分。但以前的裁判(现有的 AI 模型)有个大毛病:它们看画的时候,注意力很容易“跑神”。它们往往只盯着文字描述,或者因为看的时间太长,忘了最开始画里的细节,导致打分全靠猜,或者被文字忽悠了。

MJ1 就是为了解决这个问题而生的。它用两个绝招,让一个只有 30 亿参数(相当于一个中等身材的运动员)的小模型,打败了那些拥有数千亿参数(像巨人一样)的顶级模型。

以下是 MJ1 的两大核心绝招,用生活中的例子来解释:

1. 绝招一:“先看图,再说话”的强制流程(接地验证链)

以前的裁判怎么工作?
就像让你看完一场复杂的球赛,然后直接让你写个几千字的总结,最后给出一个比分。等你写到最后要打分时,你可能早就忘了开场时那个精彩的进球细节了,只能凭印象瞎编。

MJ1 是怎么做的?
MJ1 强迫裁判必须按五个步骤来,不能跳步:

  1. 观察(Observations): 就像裁判先戴上放大镜,把图片里的每一个细节(比如“这个人手里拿的是红苹果还是绿苹果”)都老老实实记下来。这时候注意力最集中,不会忘。
  2. 提取观点(Claims): 看看 AI 生成的回答里说了什么(比如 AI 说“我画了个红苹果”)。
  3. 核对(Verification): 把“记下来的细节”和"AI 说的话”做对比。如果 AI 说红苹果,但图里是绿的,直接打叉。
  4. 评估(Evaluation): 根据任务要求(比如“是否按要求修改了图片”)来评判。
  5. 打分(Scoring): 最后才给出分数。

效果: 哪怕不训练,只要用这个流程,裁判的准确率就自动提升了。这就好比强迫学生先列提纲、再写正文,而不是想到哪写到哪,逻辑自然更清晰。

2. 绝招二:“左右互换”的防作弊测试(反事实一致性奖励)

以前的裁判有什么毛病?
很多裁判有“位置偏见”。比如,如果两个答案 A 和 B 摆在一起,裁判可能不管内容好坏,就是习惯性觉得“排在第一个的 A 更好”,或者“排在第二个的 B 更好”。这就像有些评委,不管谁先上台,都觉得先上台的更厉害。

MJ1 是怎么解决的?
MJ1 在训练时玩了一个“换座位”的游戏:

  • 先让裁判看:图片 + 答案 A + 答案 B,裁判打分。
  • 然后把 A 和 B 的位置互换,甚至把图片里的内容也对应互换,再让裁判看一遍。
  • 关键规则: 如果裁判是个“老实人”,它应该根据内容打分。既然 A 和 B 换了位置,裁判的打分结果也应该跟着换(原来觉得 A 好,现在觉得 B 好)。
  • 惩罚机制: 如果裁判不管怎么换,都死盯着“第一个位置”给高分,那它就会被惩罚(扣分)。

效果: 这就像考试时,老师把试卷 A 和 B 的名字互换,如果学生还能根据题目内容做对题,说明他是真懂了;如果学生还是选“第一题”,说明他在瞎蒙。MJ1 通过这种训练,彻底治好了“位置偏见”。

总结:小个子也能打败大巨人

这篇论文最惊人的地方在于:

  • 以前: 大家觉得要当裁判,模型必须得特别大(像 Gemini-3-Pro 或 GPT-5 那样),参数越多越聪明。
  • 现在: MJ1 只用了一个30 亿参数的小模型(Qwen3-VL-30B-A3B),通过**“强制先看图”“防作弊训练”,在多项测试中打败了那些参数大它几十倍的超级模型**。

一句话总结:
MJ1 告诉我们,AI 变聪明不一定非要“长肌肉”(增加参数),只要**“练对方法”**(强制观察细节 + 消除偏见),小模型也能成为最公正、最敏锐的裁判。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →