Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

Il paper presenta PVT-GDLA, un decoder Transformer basato su un'attenzione lineare differenziale e gateata che, integrando un encoder PVT, risolve i problemi di instabilità e diluizione delle mappe per ottenere una segmentazione medica ad alta fedeltà con complessità computazionale lineare e prestazioni superiori rispetto alle architetture esistenti.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Gli autori propongono un framework di traduzione neurale non accoppiato basato sul ponte di Schrödinger, potenziato da un allineamento distributivo guidato da diffusione e da un regolarizzatore per la preservazione anatomica, per migliorare la qualità delle immagini risonanza magnetica a ultra-basso campo (64 mT) rendendole comparabili a quelle a 3 T senza richiedere dati di addestramento accoppiati.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

Il paper presenta TumorFlow, un quadro generativo condizionato da principi biofisici che sintetizza sequenze longitudinali realistiche di risonanza magnetica cerebrale per visualizzare la crescita e l'infiltrazione del glioblastoma, combinando modelli di crescita tumorale con tecniche di generazione avanzata per supportare la pianificazione terapeutica personalizzata.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Questo articolo presenta un approccio di deep learning multi-modale che integra dati video, pose umane e oggetti tramite meccanismi di attenzione incrociata per migliorare il riconoscimento delle attività quotidiane negli ambienti di vita assistita per anziani, dimostrando risultati promettenti sul dataset Toyota SmartHome.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

Il paper introduce InverseNet, il primo benchmark cross-modale che quantifica l'impatto del disallineamento tra operatori fisici e modelli computazionali nelle immagini compressive, rivelando come la maggior parte dei metodi deep learning perda significativamente in robustezza e come la calibrazione cieca possa recuperare quasi interamente le prestazioni perse.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Questo studio analizza diverse strategie di fusione e raggruppamento per migliorare l'accuratezza della classificazione delle Zone Climatiche Locali (LCZ) utilizzando dati di telerilevamento multimodali, dimostrando che un modello ibrido di base combinato con il raggruppamento delle bande e la fusione dei livelli decisionali raggiunge la massima precisione del 76,6% sul dataset So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Il paper presenta PinPoint, un nuovo benchmark completo per la Ricerca di Immagini Composte (CIR) che introduce valutazioni su negativi espliciti, query multi-immagine e robustezza alle parafrasi, rivelando limiti significativi negli attuali metodi e proponendo una soluzione di riordinamento basata su MLLM per colmare tali lacune.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs