cs.CV articoli | Gist.Science

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Questo studio introduce un nuovo approccio basato su patch per l'analisi topologica dei dati (TDA) applicato alle immagini TC volumetriche, che supera i metodi tradizionali in termini di accuratezza diagnostica e tempi di calcolo, offrendo inoltre un pacchetto Python per facilitarne l'uso.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

Il paper presenta VTP, un framework di pre-addestramento unificato per tokenizzatori visivi che, ottimizzando congiuntamente perdite di contrasto, auto-supervisionate e di ricostruzione, risolve il problema della scalabilità nel pre-addestramento dimostrando che la comprensione semantica è fondamentale per una generazione di immagini di alta qualità e scalabile.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Il paper CASA reinvestiga l'efficacia dell'attenzione incrociata per la fusione visione-linguaggio, dimostrando che, sebbene spesso sottostimata, questa architettura raggiunge prestazioni competitive rispetto all'inserimento diretto dei token offrendo al contempo vantaggi significativi in termini di efficienza computazionale e memoria per applicazioni video in tempo reale.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

Il paper presenta un codificatore storico leggero e preaddestrato che mappa lunghi history video in embedding compatti, garantendo coerenza temporale e prestazioni paragonabili a soluzioni più pesanti per la generazione video autoregressiva in contesti con risorse limitate.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

Il paper presenta Spatial4D-Bench, un benchmark su larga scala composto da circa 40.000 coppie domanda-risposta e 18 task organizzati in sei categorie cognitive, progettato per valutare in modo completo le capacità di ragionamento spaziale 4D dei modelli linguistici multimodali e rivelare le loro attuali limitazioni rispetto all'intelligenza umana.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

Bayesian Monocular Depth Refinement via Neural Radiance Fields

Il paper propone MDENeRF, un framework iterativo che affina le stime di profondità monoculare fondendo un prior globale con dettagli geometrici ad alta frequenza e incertezze bayesiane estratte da Neural Radiance Fields (NeRF) per migliorare la comprensione della scena.

Arun Muthukkumar2026-03-09🤖 cs.LG

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

Il paper presenta FlyPose, un pipeline di stima della posa umana leggero e robusto progettato per droni UAV che, grazie all'addestramento su più dataset e al rilascio di un nuovo dataset chiamato FlyPose-104, ottiene prestazioni superiori e un'elaborazione in tempo reale anche in condizioni di visione aerea difficili.

Hassaan Farooq, Marvin Brenner, Peter Stütz2026-03-09💻 cs

Robust Sparse Signal Recovery with Outliers: A Hard Thresholding Pursuit Approach Based on LAD

Questo articolo propone l'algoritmo GFHTP $_1$ , un approccio basato sulla minimizzazione delle deviazioni assolute che recupera segnali sparsi contaminati da outlier senza richiedere a priori la conoscenza del livello di sparsità, garantendo convergenza teorica e prestazioni superiori rispetto ai metodi esistenti.

Jiao Xu, Peng Li, Bing Zheng2026-03-09🔢 math

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

Il paper presenta SpatialMem, un sistema basato sulla memoria che utilizza un'impalcatura spaziale metrica allineata per abilitare il recupero e la risposta a domande linguistiche su video egocentrici a lungo termine, permettendo un ragionamento spaziale interpretabile e una navigazione offline senza l'uso di sensori specializzati.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding

Il paper introduce OnlineSI, un framework che potenzia i Modelli Linguistici Multimodali per la comprensione e l'ancoraggio 3D in tempo reale, mantenendo una memoria spaziale finita e integrando dati di nuvole di punti per abilitare sistemi incarnati in ambienti dinamici.

Zixian Liu, Zhaoxi Chen, Liang Pan, Ziwei Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

Il paper propone SRA 2, un framework intrinseco e leggero che accelera l'addestramento dei trasformatori di diffusione allineando le loro caratteristiche latenti intermedie a quelle di un VAE pre-addestrato, migliorando così la qualità di generazione e la velocità di convergenza senza richiedere encoder esterni o modelli duplicati.

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

FARTrack: Fast Autoregressive Visual Tracking with High Performance

Il paper presenta FARTrack, un framework di tracciamento visivo autoregressivo che combina distillazione self-specifica e sparsificazione inter-frame per ottenere prestazioni elevate e velocità di inferenza in tempo reale anche su dispositivi con risorse limitate.

Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Il paper introduce SpatialReward, un modello di ricompensa che supera le limitazioni degli attuali valutatori nell'apprendimento per rinforzo online per l'editing di immagini grazie a un ragionamento spaziale esplicito, ottenendo risultati all'avanguardia su diversi benchmark e migliorando significativamente le prestazioni di modelli come OmniGen2.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS) $^2$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

Il paper propone (MGS) $^2$ -Net, un framework innovativo che unifica l'adattamento della scala micro-geometrica e il filtraggio della struttura macro-geometrica per superare le sfide di allineamento nella geo-localizzazione cross-view, ottenendo prestazioni state-of-the-art su dataset come University-1652 e SUES-200.

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Il paper introduce MiDAS, un sistema open-source e agnostico per l'acquisizione non invasiva di dati multimodali sincronizzati nella chirurgia robotica minimamente invasiva, che supera le barriere delle interfacce proprietarie e fornisce nuovi dataset annotati per la ricerca.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

Il paper presenta DAV-GSWT, un framework efficiente dal punto di vista dei dati che combina modelli di diffusione e campionamento attivo delle viste per generare piastrelle di Gaussian Splatting ad alta fedeltà partendo da un numero minimo di osservazioni, riducendo così la dipendenza da ricostruzioni esemplari densamente campionate.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

Il paper presenta RobSelf, un modello auto-supervisionato che risolve la super-risoluzione incrociata su dati reali non allineati ottimizzando online un traduttore di caratteristiche e un filtro di riferimento, ottenendo prestazioni all'avanguardia e una velocità fino a 15,3 volte superiore ai metodi esistenti.

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

Il paper presenta UrbanAlign, un framework post-hoc che allinea i modelli visione-linguaggio congelati alle preferenze umane per la valutazione degli spazi urbani, ottenendo prestazioni superiori attraverso un processo a tre stadi di estrazione concettuale e calibrazione senza modificare i pesi del modello.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

Il paper dimostra che fondendo le rappresentazioni geometriche di DINO con le mappe di attenzione interattive di Flux in modo zero-shot, è possibile ottenere una stima dell'affordance competitiva, confermando che la percezione geometrica e quella interattiva sono i pilastri fondamentali della comprensione dell'affordance nei modelli visivi di base.

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

Il paper presenta StoryTailor, una pipeline zero-shot che genera su una singola GPU narrativa visive multi-soggetto coerenti nel tempo, preservando l'identità dei soggetti e la fedeltà delle azioni attraverso tre moduli innovativi: Gaussian-Centered Attention, Action-Boost Singular Value Reweighting e Selective Forgetting Cache.

Jinghao Hu, Yuhe Zhang, GuoHua Geng, Kang Li, Han Zhang2026-03-09💻 cs

← Precedente Successivo →

cs.CV