RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

Il paper presenta RTGMFF, un innovativo framework multimodale che combina la generazione automatica di testo basata sulle regioni di interesse (ROI) con un encoder ibrido frequenza-spaziale per migliorare la diagnosi dei disturbi cerebrali tramite dati fMRI, superando le prestazioni degli attuali metodi sui benchmark ADHD-200 e ABIDE.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Questo lavoro presenta un metodo innovativo per la stilizzazione 3D guidata dal testo che garantisce coerenza visiva e trasferimenti stilistici regionali controllati, migliorando la qualità dei risultati attraverso un meccanismo di attenzione basato su riferimento, l'uso di mappe di profondità multiple e una nuova funzione di perdita basata sulla distanza Wasserstein troncata.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Il lavoro propone GeoProto, un nuovo approccio per il riconoscimento fine-granularità interpretabile che, sfruttando le mappe di diffusione e un'interpolazione di Nyström differenziabile, allinea le similarità alla geometria intrinseca delle caratteristiche visive non lineari, superando le limitazioni delle distanze euclidee e ottenendo prestazioni superiori su benchmark standard.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Questo lavoro propone un nuovo framework di valutazione open-vocabulary e scalabile per le emozioni visive nei modelli linguistici multimodali (MLLM), basato su un compito di giudizio delle dichiarazioni emotive e su una pipeline automatizzata, che rivela sia i progressi delle prestazioni attuali sia le significative lacune nella comprensione della soggettività rispetto agli esseri umani.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Il paper introduce COMPASS, un framework innovativo che genera intervalli di previsione conformali efficienti e robusti per le metriche di segmentazione medica, calibrando direttamente nello spazio delle rappresentazioni del modello per ottenere garanzie di copertura più strette rispetto ai metodi tradizionali, anche in presenza di cambiamenti di distribuzione.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Il paper presenta CircuitSense, un benchmark gerarchico basato su oltre 8.000 problemi che valuta la capacità dei modelli linguistici multimodali di comprendere i circuiti elettronici, rivelando un divario critico tra l'eccellente riconoscimento visivo e la scarsa abilità nel derivare equazioni simboliche e nel ragionamento analitico necessari per la progettazione ingegneristica.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs