cs.CV articoli | Gist.Science

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

Il paper presenta SRNeRV, un nuovo framework ricorsivo su scala che, sfruttando l'autosimilarità delle scale e un'architettura ibrida condivisa, riduce significativamente i parametri delle rappresentazioni neurali video mantenendo alte prestazioni di compressione.

Jia Wang, Jun Zhu, Xinfeng Zhang2026-03-10💻 cs

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

Il paper presenta GarmentPainter, un framework efficiente che utilizza un modello di diffusione guidato da un personaggio per sintetizzare texture di abiti 3D ad alta fedeltà e coerenti nello spazio UV, superando i limiti di coerenza e flessibilità delle metodologie esistenti.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Questo studio valuta l'efficacia di metodi di deep learning avanzati, inclusi transformer e modelli fondazionali, applicati all'imaging ultra-grandangolare per la diagnosi della retinopatia diabetica e dell'edema maculare diabetico, dimostrando prestazioni superiori attraverso l'analisi sia spaziale che in frequenza e tecniche di fusione delle caratteristiche.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Il paper introduce SiMO, un nuovo approccio alla percezione collaborativa multimodale che, grazie alla fusione adattiva LAMMA e a una strategia di addestramento innovativa, risolve il problema del fallimento dei sensori mantenendo prestazioni ottimali anche in caso di malfunzionamento di una modalità chiave come il LiDAR.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

Topologically Stable Hough Transform

Il paper propone una nuova formulazione della trasformata di Hough basata sull'omologia persistente per rilevare linee in nuvole di punti, sostituendo lo schema di votazione discretizzato con una funzione di punteggio continua e fornendo un algoritmo efficiente per calcolare le linee candidate.

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Il paper presenta DynamicVGGT, un framework unificato feed-forward che estende la percezione 3D statica alla ricostruzione 4D dinamica per la guida autonoma, integrando un'attenzione temporale consapevole del movimento e un head di splatting gaussiano per modellare con precisione il moto dei punti e le variazioni temporali complesse.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Il paper propone WaDi, un nuovo framework di distillazione per la sintesi di immagini in un singolo passo che, sfruttando l'analisi dei cambiamenti direzionali dei pesi e un adattatore efficiente chiamato LoRaD, raggiunge prestazioni all'avanguardia con solo il 10% dei parametri addestrabili.

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Questo lavoro propone un metodo senza apprendimento per il tracciamento della posa 6D di oggetti che fonde il flusso ottico basato su eventi per la propagazione della posa con una correzione locale basata su template, dimostrando prestazioni superiori rispetto agli algoritmi esistenti nel tracciamento di oggetti in rapido movimento grazie all'alta risoluzione temporale delle telecamere a eventi.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

Prototype-Guided Concept Erasure in Diffusion Models

Il paper propone un metodo di cancellazione concettuale guidato da prototipi che, sfruttando la geometria delle embedding latenti per identificare e clusterizzare le rappresentazioni interne di concetti ampi, ne garantisce una rimozione più affidabile rispetto alle tecniche esistenti preservando al contempo la qualità delle immagini generate.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Il paper propone OSCAR, un metodo basato su rappresentazioni implicite neurali che ricostruisce la geometria 3D completa della colonna vertebrale da immagini ecografiche parziali sfruttando i parametri acustici per inferire le regioni occluse senza bisogno di etichette anatomiche durante l'inferenza.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

Il paper introduce SP-CLIP, un framework leggero che migliora il riconoscimento zero-shot delle azioni potenziando i modelli visione-linguaggio congelati con prompt semantici strutturati a più livelli di astrazione, ottenendo risultati superiori senza modificare l'encoder visivo o apprendere nuovi parametri.

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Il paper propone un metodo di generazione CT guidato dal testo che, integrando un approccio di recupero per estrarre annotazioni anatomiche da casi clinici simili, migliora la fedeltà anatomica e il controllo spaziale rispetto ai modelli basati solo sul testo.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Questo articolo presenta un nuovo metodo di fine-tuning che guida i Vision Transformers verso correlazioni semantiche basate su concetti, utilizzando maschere generate automaticamente da LLM e VLM per migliorare la robustezza del modello rispetto a spostamenti distributivi.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

Il paper presenta HDR-NSFF, un nuovo framework che supera i limiti delle tradizionali tecniche HDR 2D modellando dinamicamente i campi di flusso neurale nello spazio-tempo per ricostruire radiance ad alto intervallo dinamico da video monoculare a esposizioni alterne, garantendo coerenza temporale e dettagli radiometrici superiori.

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Il paper introduce SlowBA, un attacco backdoor innovativo che compromette l'efficienza degli agenti GUI basati su modelli visione-linguaggio inducendo latenze eccessive attraverso catene di ragionamento innescate da finestre pop-up realistiche, pur mantenendo inalterata l'accuratezza delle azioni.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Questo studio presenta un'ampia analisi comparativa tra umani e intelligenza artificiale nel riconoscimento di azioni egocentriche, rivelando che gli esseri umani dipendono fortemente da cue semantici critici e sparsi, mentre i modelli AI mostrano una degradazione più graduale basata su feature contestuali e una minore sensibilità alle perturbazioni temporali.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Questo lavoro introduce un framework generale per valutare la qualità delle mappe di calore nel Multiple Instance Learning per l'istopatologia, dimostrando che metodi come LRP e Integrated Gradients superano le mappe basate sull'attenzione e abilitano validazioni biologiche affidabili e nuove intuizioni scientifiche.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Local-Global Prompt Learning via Sparse Optimal Transport

Il paper propone SOT-GLP, un metodo di apprendimento dei prompt che combina allineamento globale e locale tramite trasporto ottimo sparsa per partizionare efficientemente le regioni visive tra i prompt specifici per classe, ottenendo così prestazioni superiori sia nella classificazione few-shot che nella rilevazione di dati fuori distribuzione.

Deniz Kizaro\u{g}lu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel2026-03-10💻 cs

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Il paper presenta $\Delta$ VLA, un framework innovativo per i modelli Vision-Language-Action che migliora la manipolazione robotica modellando le variazioni della conoscenza del mondo rispetto a un prior esplicito, anziché prevedere stati futuri assoluti, ottenendo così prestazioni all'avanguardia e maggiore efficienza.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

Questo lavoro introduce UniDiffDA, un quadro analitico unificato che scompone l'aumento dei dati basato sulla diffusione in tre componenti fondamentali per fornire una valutazione sistematica e comparativa delle strategie esistenti in compiti di classificazione con dati scarsi.

Zekun Li, Yinghuan Shi, Yang Gao, Dong Xu2026-03-10💻 cs

← Precedente Successivo →

cs.CV