Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Il lavoro propone GeoProto, un nuovo approccio per il riconoscimento fine-granularità interpretabile che, sfruttando le mappe di diffusione e un'interpolazione di Nyström differenziabile, allinea le similarità alla geometria intrinseca delle caratteristiche visive non lineari, superando le limitazioni delle distanze euclidee e ottenendo prestazioni superiori su benchmark standard.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Questo lavoro propone un nuovo framework di valutazione open-vocabulary e scalabile per le emozioni visive nei modelli linguistici multimodali (MLLM), basato su un compito di giudizio delle dichiarazioni emotive e su una pipeline automatizzata, che rivela sia i progressi delle prestazioni attuali sia le significative lacune nella comprensione della soggettività rispetto agli esseri umani.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Il paper introduce COMPASS, un framework innovativo che genera intervalli di previsione conformali efficienti e robusti per le metriche di segmentazione medica, calibrando direttamente nello spazio delle rappresentazioni del modello per ottenere garanzie di copertura più strette rispetto ai metodi tradizionali, anche in presenza di cambiamenti di distribuzione.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Il paper presenta CircuitSense, un benchmark gerarchico basato su oltre 8.000 problemi che valuta la capacità dei modelli linguistici multimodali di comprendere i circuiti elettronici, rivelando un divario critico tra l'eccellente riconoscimento visivo e la scarsa abilità nel derivare equazioni simboliche e nel ragionamento analitico necessari per la progettazione ingegneristica.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Il paper presenta DiffInk, il primo framework Transformer basato su diffusione latente per la generazione di intere righe di scrittura online, che combina un nuovo autoencoder variabile (InkVAE) con regolarizzazioni per accuratezza dei glifi e stile, e un modello di diffusione (InkDiT) per produrre traiettorie realistiche, efficienti e strutturalmente coerenti.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

Il paper presenta SMART-R1, un nuovo paradigma di affinamento tramite rinforzo di stile R1 che, combinando ottimizzazione della politica orientata alle metriche e una strategia di addestramento iterativa "SFT-RFT-SFT", supera le attuali limitazioni nella simulazione del traffico multi-agente raggiungendo le prestazioni più avanzate sul dataset Waymo Open Motion.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

Il paper presenta LVTINO, il primo risolutore inverso zero-shot per il restauro video ad alta definizione che sfrutta i Video Consistency Models per garantire coerenza temporale e alta qualità ricostruttiva con elevata efficienza computazionale, superando i limiti degli approcci basati su modelli immagine applicati fotogramma per fotogramma.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat