VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Il paper introduce VITA, un metodo di apprendimento zero-shot per funzioni di valore che supera i limiti dei modelli visione-linguaggio congelati attraverso l'adattamento al momento dell'inferenza e una strategia di campionamento basata sulla dissimilarità, ottenendo risultati superiori in compiti di manipolazione robotica e nel shaping della ricompensa per l'apprendimento per rinforzo offline.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Il paper presenta MOON, il primo modello generativo basato su MLLM per l'apprendimento di rappresentazioni multimodali nel commercio elettronico, che supera i limiti delle architetture discriminative esistenti attraverso un modulo MoE guidato, il rilevamento di regioni semantiche chiave e una strategia di campionamento negativo specializzata, supportato dal nuovo benchmark MBE.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI