MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Il paper presenta MOON, il primo modello generativo basato su MLLM per l'apprendimento di rappresentazioni multimodali nel commercio elettronico, che supera i limiti delle architetture discriminative esistenti attraverso un modulo MoE guidato, il rilevamento di regioni semantiche chiave e una strategia di campionamento negativo specializzata, supportato dal nuovo benchmark MBE.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI