A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Questo studio introduce un nuovo approccio basato su patch per l'analisi topologica dei dati (TDA) applicato alle immagini TC volumetriche, che supera i metodi tradizionali in termini di accuratezza diagnostica e tempi di calcolo, offrendo inoltre un pacchetto Python per facilitarne l'uso.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Il paper CASA reinvestiga l'efficacia dell'attenzione incrociata per la fusione visione-linguaggio, dimostrando che, sebbene spesso sottostimata, questa architettura raggiunge prestazioni competitive rispetto all'inserimento diretto dei token offrendo al contempo vantaggi significativi in termini di efficienza computazionale e memoria per applicazioni video in tempo reale.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Il paper presenta Spatial4D-Bench, un benchmark su larga scala composto da circa 40.000 coppie domanda-risposta e 18 task organizzati in sei categorie cognitive, progettato per valutare in modo completo le capacità di ragionamento spaziale 4D dei modelli linguistici multimodali e rivelare le loro attuali limitazioni rispetto all'intelligenza umana.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

Il paper presenta SpatialMem, un sistema basato sulla memoria che utilizza un'impalcatura spaziale metrica allineata per abilitare il recupero e la risposta a domande linguistiche su video egocentrici a lungo termine, permettendo un ragionamento spaziale interpretabile e una navigazione offline senza l'uso di sensori specializzati.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

Il paper propone SRA 2, un framework intrinseco e leggero che accelera l'addestramento dei trasformatori di diffusione allineando le loro caratteristiche latenti intermedie a quelle di un VAE pre-addestrato, migliorando così la qualità di generazione e la velocità di convergenza senza richiedere encoder esterni o modelli duplicati.

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Il paper introduce SpatialReward, un modello di ricompensa che supera le limitazioni degli attuali valutatori nell'apprendimento per rinforzo online per l'editing di immagini grazie a un ragionamento spaziale esplicito, ottenendo risultati all'avanguardia su diversi benchmark e migliorando significativamente le prestazioni di modelli come OmniGen2.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS)2^2-Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

Il paper propone (MGS)2^2-Net, un framework innovativo che unifica l'adattamento della scala micro-geometrica e il filtraggio della struttura macro-geometrica per superare le sfide di allineamento nella geo-localizzazione cross-view, ottenendo prestazioni state-of-the-art su dataset come University-1652 e SUES-200.

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Il paper introduce MiDAS, un sistema open-source e agnostico per l'acquisizione non invasiva di dati multimodali sincronizzati nella chirurgia robotica minimamente invasiva, che supera le barriere delle interfacce proprietarie e fornisce nuovi dataset annotati per la ricerca.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

Il paper presenta DAV-GSWT, un framework efficiente dal punto di vista dei dati che combina modelli di diffusione e campionamento attivo delle viste per generare piastrelle di Gaussian Splatting ad alta fedeltà partendo da un numero minimo di osservazioni, riducendo così la dipendenza da ricostruzioni esemplari densamente campionate.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

Il paper presenta UrbanAlign, un framework post-hoc che allinea i modelli visione-linguaggio congelati alle preferenze umane per la valutazione degli spazi urbani, ottenendo prestazioni superiori attraverso un processo a tre stadi di estrazione concettuale e calibrazione senza modificare i pesi del modello.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

Il paper dimostra che fondendo le rappresentazioni geometriche di DINO con le mappe di attenzione interattive di Flux in modo zero-shot, è possibile ottenere una stima dell'affordance competitiva, confermando che la percezione geometrica e quella interattiva sono i pilastri fondamentali della comprensione dell'affordance nei modelli visivi di base.

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs