Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Questo lavoro propone un nuovo framework di valutazione open-vocabulary e scalabile per le emozioni visive nei modelli linguistici multimodali (MLLM), basato su un compito di giudizio delle dichiarazioni emotive e su una pipeline automatizzata, che rivela sia i progressi delle prestazioni attuali sia le significative lacune nella comprensione della soggettività rispetto agli esseri umani.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Il paper introduce COMPASS, un framework innovativo che genera intervalli di previsione conformali efficienti e robusti per le metriche di segmentazione medica, calibrando direttamente nello spazio delle rappresentazioni del modello per ottenere garanzie di copertura più strette rispetto ai metodi tradizionali, anche in presenza di cambiamenti di distribuzione.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Il paper presenta CircuitSense, un benchmark gerarchico basato su oltre 8.000 problemi che valuta la capacità dei modelli linguistici multimodali di comprendere i circuiti elettronici, rivelando un divario critico tra l'eccellente riconoscimento visivo e la scarsa abilità nel derivare equazioni simboliche e nel ragionamento analitico necessari per la progettazione ingegneristica.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Il paper presenta DiffInk, il primo framework Transformer basato su diffusione latente per la generazione di intere righe di scrittura online, che combina un nuovo autoencoder variabile (InkVAE) con regolarizzazioni per accuratezza dei glifi e stile, e un modello di diffusione (InkDiT) per produrre traiettorie realistiche, efficienti e strutturalmente coerenti.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

Il paper presenta SMART-R1, un nuovo paradigma di affinamento tramite rinforzo di stile R1 che, combinando ottimizzazione della politica orientata alle metriche e una strategia di addestramento iterativa "SFT-RFT-SFT", supera le attuali limitazioni nella simulazione del traffico multi-agente raggiungendo le prestazioni più avanzate sul dataset Waymo Open Motion.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

Il paper presenta LVTINO, il primo risolutore inverso zero-shot per il restauro video ad alta definizione che sfrutta i Video Consistency Models per garantire coerenza temporale e alta qualità ricostruttiva con elevata efficienza computazionale, superando i limiti degli approcci basati su modelli immagine applicati fotogramma per fotogramma.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

PHyCLIP: 1\ell_1-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Il paper presenta PHyCLIP, un modello che unifica gerarchia e composizionalità nell'apprendimento di rappresentazioni visione-linguaggio utilizzando una metrica 1\ell_1-prodotto su fattori iperbolici, superando i limiti degli approcci a spazio singolo e migliorando le prestazioni in compiti di classificazione e recupero.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Questo articolo propone il framework CSL, un approccio di co-apprendimento unificato che risolve la sfida del riconoscimento di immagini multi-etichetta con etichette incomplete, migliorando simultaneamente l'estrazione di caratteristiche semantiche e il recupero delle etichette mancanti attraverso un meccanismo di rinforzo reciproco che supera gli stati dell'arte su dataset pubblici.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs