cs.CV articoli | Gist.Science

An Extended Topological Model For High-Contrast Optical Flow

Questo articolo introduce un modello topologico esteso basato su fasci di cerchi per spiegare la struttura geometrica dei flussi ottici ad alto contrasto, rivelando che le patch più contrastate si concentrano vicino a cerchi corrispondenti a bordi di step binari piuttosto che sul toro precedentemente ipotizzato, offrendo così nuove intuizioni sull'interazione tra topologia e geometria nell'analisi visiva.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Il paper presenta ColonSplat, un nuovo framework basato su Dynamic Gaussian Splatting che, supportato dal dataset sintetico DynamicColon, risolve i limiti delle attuali metodologie di ricostruzione endoscopica permettendo una modellazione accurata del movimento peristaltico e della coerenza geometrica globale durante le procedure di colonscopia.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

Il paper introduce IGLU, una nuova funzione di attivazione parametrica basata su una distribuzione di Cauchy che garantisce gradienti non nulli e robustezza, offrendo prestazioni competitive rispetto a ReLU e GELU su diversi benchmark e un'approssimazione efficiente (IGLU-Approx) che riduce i costi computazionali.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

A prior information informed learning architecture for flying trajectory prediction

Questo articolo presenta un nuovo framework hardware-efficiente basato su un'architettura Dual-Transformer-Cascaded (DTC) che integra informazioni prioritarie ambientali per prevedere con precisione i punti di atterraggio di palle da tennis, superando i limiti dei metodi tradizionali.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

Il paper introduce PICS, un paradigma auto-supervisionato per la composizione di immagini che utilizza un Transformer di Interazione con esperti misti e un blending adattivo per gestire le interazioni spaziali e preservare la coerenza fisica durante la sovrapposizione di oggetti.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

Il paper presenta OPTED, un dataset open-source di immagini preelaborate per la trachoma, creato utilizzando il modello di segmentazione zero-shot SAM 3 per estrarre automaticamente le regioni di interesse da fotografie cliniche e facilitare la ricerca sulla classificazione automatizzata della malattia.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Il paper propone un nuovo paradigma di aumento dei dati che, ispirandosi alle procedure di progettazione industriale, utilizza modelli linguistici di grandi dimensioni per generare programmi CAD più diversificati e complessi, arricchendo i dataset esistenti con forme organiche e curvature basate su spline tipiche dei progetti industriali reali.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

Il paper presenta PaQ-DETR, un framework unificato che supera i limiti delle query fisse dei modelli DETR generando query dinamiche basate su pattern latenti condivisi e adottando una strategia di assegnazione uno-a-molti consapevole della qualità, ottenendo così miglioramenti significativi di mAP e una migliore interpretabilità semantica su diversi benchmark di rilevamento oggetti.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

Il paper propone DLRMamba, un metodo che combina un modello a stato spaziale bidimensionale a basso rango con una distillazione consapevole della struttura per ottimizzare la fusione multispettrale e il rilevamento di oggetti su dispositivi edge a risorse limitate, riducendo la complessità computazionale senza compromettere l'accuratezza.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Il paper presenta ESM-YOLO+, una rete di fusione leggera per immagini visibili e infrarosse che, grazie al modulo di fusione dell'attenzione potenziata da maschere e al potenziamento strutturale durante l'addestramento, migliora significativamente il rilevamento di piccoli bersagli nelle immagini telerilevate riducendo al contempo la complessità del modello.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

Il paper propone HIERAMP, un metodo di distillazione dei dataset che sfrutta il modello autoregressivo visivo (VAR) per amplificare le semantica gerarchiche a diverse scale, migliorando le prestazioni di sintesi guidando la generazione verso regioni discriminative senza ottimizzare esplicitamente la prossimità globale.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Questo studio presenta una pipeline analitica basata su segmentazione 3D e machine learning che dimostra come l'analisi tridimensionale delle caratteristiche istomorfometriche legate all'invasione perineurale e linfovascolare superi i metodi 2D tradizionali nel predire la recidiva biochimica del cancro alla prostata.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Questo studio presenta il Virtual Intraoperative CT (viCT), un metodo che utilizza ricostruzioni 3D derivate da video endoscopico monoculare per aggiornare sequenzialmente le immagini TC preoperatorie durante la chirurgia endoscopica dei seni paranasali, permettendo una visualizzazione in tempo reale dei confini di resezione tissutale con un'accuratezza submillimetrica.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

Il paper presenta SurgCUT3R, un framework innovativo che supera le limitazioni dei modelli di ricostruzione 3D generici in ambito chirurgico generando dati di addestramento su larga scala e adottando una strategia di inferenza gerarchica per garantire ricostruzioni robuste e prive di deriva temporale da video endoscopici monoculari.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Il documento presenta CUOTM, un nuovo modello generativo condizionale basato su un framework di Trasporto Ottimo Non Bilanciato che, rilassando i vincoli di corrispondenza delle distribuzioni tramite penalità di divergenza di Csiszár, risolve efficacemente la sensibilità agli outlier tipica dei metodi tradizionali mantenendo un'elevata efficienza di campionamento.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

Il paper presenta T2SGrid, un nuovo framework che risolve le limitazioni delle attuali Vision-LMM nel grounding temporale video trasformando le sequenze temporali in griglie spaziali bidimensionali tramite finestre scorrevoli sovrapposte, permettendo così di trattare la comprensione temporale come un compito di comprensione spaziale e ottenendo prestazioni superiori sui benchmark standard.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Questo lavoro dimostra che l'uso di encoder pre-allineati per immagini e nuvole di punti, combinato con una nuova perdita di contrasto hard multi-modale, permette di ottenere prestazioni state-of-the-art nel recupero di forme 3D da immagini, eliminando la necessità di sintesi di viste e consentendo il recupero zero-shot senza riaddestramento.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Il paper propone un framework di ragionamento multimodale consapevole della percezione che, rappresentando gli oggetti tramite token visivi di riferimento e utilizzando un dataset di pensiero concatenato multimodale, permette ai modelli visione-linguaggio di superare significativamente le prestazioni nello spazio di ragionamento spaziale da immagini monoculare per la guida autonoma.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Il paper presenta ADAS-TO, il primo dataset naturale su larga scala dedicato alle transizioni ADAS-manuale, che analizza oltre 15.000 eventi di takeover per caratterizzare le dinamiche di sicurezza e dimostrare la fattibilità di sistemi di allerta precoce basati su segnali visivi.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

Il paper presenta MipSLAM, un sistema SLAM basato su Gaussian Splatting 3D che integra un algoritmo di anti-aliasing adattivo ellittico e un'ottimizzazione del grafo di pose consapevole dello spettro per ottenere sintesi di nuove viste ad alta fedeltà e una stima della posa robusta senza artefatti di aliasing.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

← Precedente Successivo →