An Extended Topological Model For High-Contrast Optical Flow

Questo articolo introduce un modello topologico esteso basato su fasci di cerchi per spiegare la struttura geometrica dei flussi ottici ad alto contrasto, rivelando che le patch più contrastate si concentrano vicino a cerchi corrispondenti a bordi di step binari piuttosto che sul toro precedentemente ipotizzato, offrendo così nuove intuizioni sull'interazione tra topologia e geometria nell'analisi visiva.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Il paper presenta ColonSplat, un nuovo framework basato su Dynamic Gaussian Splatting che, supportato dal dataset sintetico DynamicColon, risolve i limiti delle attuali metodologie di ricostruzione endoscopica permettendo una modellazione accurata del movimento peristaltico e della coerenza geometrica globale durante le procedure di colonscopia.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Il paper propone un nuovo paradigma di aumento dei dati che, ispirandosi alle procedure di progettazione industriale, utilizza modelli linguistici di grandi dimensioni per generare programmi CAD più diversificati e complessi, arricchendo i dataset esistenti con forme organiche e curvature basate su spline tipiche dei progetti industriali reali.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

Il paper presenta PaQ-DETR, un framework unificato che supera i limiti delle query fisse dei modelli DETR generando query dinamiche basate su pattern latenti condivisi e adottando una strategia di assegnazione uno-a-molti consapevole della qualità, ottenendo così miglioramenti significativi di mAP e una migliore interpretabilità semantica su diversi benchmark di rilevamento oggetti.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Il paper presenta ESM-YOLO+, una rete di fusione leggera per immagini visibili e infrarosse che, grazie al modulo di fusione dell'attenzione potenziata da maschere e al potenziamento strutturale durante l'addestramento, migliora significativamente il rilevamento di piccoli bersagli nelle immagini telerilevate riducendo al contempo la complessità del modello.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

Il paper propone HIERAMP, un metodo di distillazione dei dataset che sfrutta il modello autoregressivo visivo (VAR) per amplificare le semantica gerarchiche a diverse scale, migliorando le prestazioni di sintesi guidando la generazione verso regioni discriminative senza ottimizzare esplicitamente la prossimità globale.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Questo studio presenta una pipeline analitica basata su segmentazione 3D e machine learning che dimostra come l'analisi tridimensionale delle caratteristiche istomorfometriche legate all'invasione perineurale e linfovascolare superi i metodi 2D tradizionali nel predire la recidiva biochimica del cancro alla prostata.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Questo studio presenta il Virtual Intraoperative CT (viCT), un metodo che utilizza ricostruzioni 3D derivate da video endoscopico monoculare per aggiornare sequenzialmente le immagini TC preoperatorie durante la chirurgia endoscopica dei seni paranasali, permettendo una visualizzazione in tempo reale dei confini di resezione tissutale con un'accuratezza submillimetrica.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Il documento presenta CUOTM, un nuovo modello generativo condizionale basato su un framework di Trasporto Ottimo Non Bilanciato che, rilassando i vincoli di corrispondenza delle distribuzioni tramite penalità di divergenza di Csiszár, risolve efficacemente la sensibilità agli outlier tipica dei metodi tradizionali mantenendo un'elevata efficienza di campionamento.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

Il paper presenta T2SGrid, un nuovo framework che risolve le limitazioni delle attuali Vision-LMM nel grounding temporale video trasformando le sequenze temporali in griglie spaziali bidimensionali tramite finestre scorrevoli sovrapposte, permettendo così di trattare la comprensione temporale come un compito di comprensione spaziale e ottenendo prestazioni superiori sui benchmark standard.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Questo lavoro dimostra che l'uso di encoder pre-allineati per immagini e nuvole di punti, combinato con una nuova perdita di contrasto hard multi-modale, permette di ottenere prestazioni state-of-the-art nel recupero di forme 3D da immagini, eliminando la necessità di sintesi di viste e consentendo il recupero zero-shot senza riaddestramento.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Il paper propone un framework di ragionamento multimodale consapevole della percezione che, rappresentando gli oggetti tramite token visivi di riferimento e utilizzando un dataset di pensiero concatenato multimodale, permette ai modelli visione-linguaggio di superare significativamente le prestazioni nello spazio di ragionamento spaziale da immagini monoculare per la guida autonoma.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs