MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding
この論文は、E コマース商品理解における既存の判別モデルの限界を克服し、ガイド付き MoE モジュールや背景ノイズ低減、特殊な負サンプリング戦略を導入した生成型マルチモーダル大規模言語モデル「MOON」と、その評価用大規模ベンチマーク「MBE」を提案し、多様な下游タスクで高い汎化性能を示すことを報告しています。