Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation
本論文は、既存の評価手法の限界を克服するため、10 次元の能力指向ベンチマーク「M-JudgeBench」を提案し、MCTS を駆使したデータ生成フレームワーク「Judge-MCTS」を用いて高品質な判断モデル「M-Judger」を構築・検証することで、マルチモーダル大規模言語モデルの判断能力評価とトレーニングの新たな基盤を確立したものである。