Soft Equivariance Regularization for Invariant Self-Supervised Learning

Il paper propone la Soft Equivariance Regularization (SER), un metodo di regolarizzazione che migliora l'apprendimento auto-supervisionato decouplando l'invarianza e l'equivarianza su diversi livelli della rete, ottenendo così prestazioni superiori nella classificazione, nella robustezza e nel rilevamento di oggetti senza richiedere etichette di trasformazione o componenti aggiuntivi significativi.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

Il paper presenta HARP, un framework di deep learning che armonizza i dati di risonanza magnetica a diffusione (dMRI) in vivo addestrando esclusivamente su un fantasma, eliminando così la necessità di costosi e complessi dati umani multi-sito e migliorando la scalabilità degli studi clinici su larga scala.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Questo lavoro introduce un nuovo metodo per migliorare il ragionamento visivo dei modelli visione-linguaggio in ambito medico, utilizzando le traiettorie di sguardo umano come segnale di supervisione temporale per guidare l'acquisizione sequenziale delle evidenze, ottenendo così prestazioni superiori sia in dominio che in scenari zero-shot.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Questo articolo introduce SIQA, un nuovo framework e benchmark per la valutazione della qualità delle immagini scientifiche che, superando i limiti dei metodi tradizionali focalizzati solo sulla percezione, misura sia la validità scientifica che la chiarezza cognitiva, rivelando attraverso esperimenti su modelli multimodali che l'allineamento ai giudizi degli esperti non garantisce una reale comprensione scientifica.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Il paper dimostra che i modelli MLLM basati solo su RGB falliscono nella generalizzazione spaziale tra diverse telecamere a causa dell'ambiguità tra proprietà fisiche e prospettiva, e propone un framework "Camera-Aware" che, integrando parametri intrinseci, augmentation dei dati e distillazione di priors geometrici, risolve tale problema garantendo un'intelligenza spaziale robusta e generalizzabile.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Il paper introduce HERO, un nuovo framework per il grounding temporale di frasi in video a vocabolario aperto, accompagnato dai primi benchmark dedicati (Charades-OV e ActivityNet-OV) e risultati sperimentali che ne dimostrano la superiorità rispetto agli stati dell'arte nella generalizzazione a query linguistiche non viste.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Il paper presenta XMACNet, una rete neurale convoluzionale leggera e spiegabile che integra l'attenzione automatica e la fusione multimodale di immagini RGB e indici di vegetazione per classificare con alta precisione le malattie delle piante di peperoncino, superando i modelli esistenti e abilitando il deployment su dispositivi edge.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

Il paper presenta EarthBridge, un framework di traduzione ad alta fedeltà basato su modelli Diffusion Bridge Impliciti e Contrastive Unpaired Translation, che ha ottenuto il secondo posto nella sfida MAVIC-T per la conversione tra immagini aeree multispettrali (EO, IR e SAR) grazie a un'architettura UNet ottimizzata e tecniche di inizializzazione avanzate.

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

Il paper presenta HiDE, un framework di modellazione dell'entropia basato su dizionari gerarchici per la compressione di immagini appresa, che migliora l'efficienza di codifica sfruttando in modo strutturato prior esterni globali e locali e un stimatore di parametri adattivo, ottenendo risparmi significativi nel bitrate rispetto allo stato dell'arte.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Lo studio rivela che la capacità dei modelli visione-linguaggio a lungo termine di mantenere un ragionamento intermedio ancorato allo stato visivo in evoluzione (misurata tramite il Step Grounding Rate) è un indicatore predittivo primario della loro robustezza e generalizzazione fuori distribuzione, superando la semplice accuratezza finale.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Il paper presenta il "Perturbed Gaussian Ensemble", un nuovo framework per la selezione attiva delle viste nella tomografia computerizzata a vista sparsa che, integrando la modellazione dell'incertezza con la scalatura stocastica delle densità dei primitivi Gaussiani, seleziona iterativamente le proiezioni ottimali per migliorare la fedeltà della ricostruzione e ridurre gli artefatti geometrici.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs