cs.CV articoli | Gist.Science

(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork

Il paper presenta PASS, un nuovo framework basato su una rete iper-recorrente che utilizza prompt visivi per identificare modelli di sparsità strutturale di alta qualità, migliorando significativamente l'efficienza e l'accuratezza dei modelli di visione artificiale rispetto alle tecniche di pruning tradizionali.

Tianjin Huang, Fang Meng, Li Shen + 5 more2026-02-24🤖 cs.AI

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Il paper introduce MathScape, un nuovo benchmark basato su immagini reali che valuta le capacità di ragionamento matematico dei modelli multimodali, rivelando che anche i modelli più avanzati faticano a gestire contesti pratici rispetto a quelli sintetici e rimangono inferiori alle prestazioni umane.

Hao Liang, Linzhuang Sun, Minxuan Zhou + 7 more2026-02-24💬 cs.CL

$R^2$ -Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement

Il paper propone $R^2$ -Mesh, un framework di apprendimento per rinforzo che migliora la ricostruzione di mesh da NeRF combinando la supervisione tramite immagini pseudo-sintetizzate con una strategia di selezione dinamica delle viste basata su UCB per ottimizzare simultaneamente geometria e aspetto.

Haoyang Wang, Liming Liu, Xinggong Zhang2026-02-24💻 cs

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes

Il paper propone il modello CT-AGRG, un sistema che genera relazioni radiologiche guidate dalle anomalie individuate nei volumi CT toracici 3D, migliorando significativamente la qualità e la rilevanza clinica dei report rispetto ai metodi esistenti.

Theo Di Piazza, Carole Lazarus, Olivier Nempont + 1 more2026-02-24⚡ eess

Geometry Distributions

Questo lavoro propone una nuova rappresentazione geometrica basata su distribuzioni e modelli di diffusione che supera i limiti delle reti coordinate tradizionali, consentendo di modellare con alta fedeltà strutture complesse e non chiuse, oltre a abilitare applicazioni avanzate come la compressione neurale e il rendering dinamico.

Biao Zhang, Jing Ren, Peter Wonka2026-02-24💻 cs

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives

Il paper presenta Speedy-Splat, un approccio che accelera drasticamente il rendering e riduce le dimensioni del modello nella ricostruzione 3D tramite Gaussian Splatting ottimizzando la localizzazione delle primitive e introducendo una nuova tecnica di pruning.

Alex Hanson, Allen Tu, Geng Lin + 3 more2026-02-24💻 cs

MEt3R: Measuring Multi-View Consistency in Generated Images

Il paper introduce MEt3R, una nuova metrica indipendente dal processo di campionamento che valuta la coerenza multi-vista nelle immagini generate sfruttando ricostruzioni 3D dense ottenute tramite DUSt3R per confrontare le mappe di caratteristiche e misurare la similarità in modo invariante agli effetti dipendenti dalla vista.

Mohammad Asim, Christopher Wewer, Thomas Wimmer + 2 more2026-02-24⚡ eess

A polynomial formula for the perspective four points problem

Il paper presenta una soluzione rapida e accurata al problema della prospettiva a quattro punti, basata su una nuova separazione delle variabili che riduce il problema a un'orientazione assoluta risolvibile con formule esplicite, risultando significativamente più veloce degli algoritmi esistenti mantenendo un'accuratezza comparabile.

David Lehavi, Brian Osserman2026-02-24💻 cs

Learning Street View Representations with Spatiotemporal Contrast

Questo lavoro propone un innovativo framework di apprendimento auto-supervisionato che sfrutta le caratteristiche spaziali e temporali delle immagini Street View per apprendere rappresentazioni robuste degli ambienti urbani, superando i metodi esistenti in compiti come il riconoscimento dei luoghi, la stima socioeconomica e la percezione uomo-ambiente.

Yong Li, Yingjing Huang, Gengchen Mai + 1 more2026-02-24🤖 cs.AI

SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

Questo studio presenta SAMRI-2, un modello di visione artificiale basato sulla memoria e arricchito da una strategia di mescolamento ibrida, che supera le prestazioni degli attuali metodi di segmentazione per la cartilagine e il menisco nelle risonanze magnetiche 3D del ginocchio, garantendo alta precisione con un ridotto sforzo di annotazione.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

Il paper propone IVPT, un nuovo framework che migliora l'interpretabilità del visual prompt tuning collegando i prompt a concetti semantici umani attraverso prototipi cross-layer, garantendo al contempo prestazioni superiori nelle classificazioni fine-grained.

Yubin Wang, Xinyang Jiang, De Cheng + 4 more2026-02-24💻 cs

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Il paper introduce Hier-COS, un nuovo framework che allinea le rappresentazioni degli features alla gerarchia delle classi tramite sottospazi ortogonali, corregge le metriche di valutazione esistenti con HOPS e dimostra prestazioni superiori su dataset complessi rispetto agli stati dell'arte.

Depanshu Sani, Saket Anand2026-02-24🤖 cs.LG

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Il paper propone SpHOR, un metodo di apprendimento rappresentativo che migliora il riconoscimento in scenari open-set attraverso embedding di etichette ortogonali, vincoli sferici e tecniche di regolarizzazione, ottenendo risultati all'avanguardia su diversi benchmark.

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

PSGait: Gait Recognition using Parsing Skeleton

Il paper presenta PSGait, un framework innovativo che combina lo scheletro di parsing con i contorni per migliorare l'accuratezza e l'efficienza del riconoscimento dell'andatura in scenari reali, superando i metodi esistenti con minori risorse computazionali.

Hangrui Xu, Zhengxian Wu, Chuanrui Zhang + 4 more2026-02-24💻 cs

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

Il paper introduce VideoMind, un agente video-linguistico innovativo che utilizza un flusso di lavoro basato su ruoli e un meccanismo Chain-of-LoRA per migliorare il ragionamento temporale e la capacità di fornire risposte fondate su evidenze visive nei video.

Ye Liu, Kevin Qinghong Lin, Chang Wen Chen + 1 more2026-02-24🤖 cs.AI

ShapeShift: Text-to-Mosaic Synthesis via Semantic Phase-Field Guidance

Il paper presenta ShapeShift, un metodo che utilizza la guida semantica dei modelli di diffusione per risolvere le sovrapposizioni tra oggetti rigidi in modo anisotropo e semanticamente coerente, generando così mosaici che rispettano sia la validità fisica che il concetto visivo descritto dal testo.

Vihaan Misra, Peter Schaldenbrand, Jean Oh2026-02-24💻 cs

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Questo lavoro introduce il dataset e il benchmark Qualcomm Interactive Video Dataset (IVD) per valutare le capacità dei modelli visione-linguaggio di rispondere in tempo reale a domande su scene reali, dimostrando che, sebbene i modelli attuali siano molto inferiori agli esseri umani, il fine-tuning su questo tipo di dati può colmare significativamente il divario nelle competenze percettive necessarie.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Il paper propone un metodo innovativo per l'apprendimento incrementale di nuove classi con pochi esempi, ispirato all'analogia umana, che genera pesi per le nuove classi senza fine-tuning dei parametri utilizzando un generatore analogico basato su tre moduli specifici, ottenendo risultati superiori rispetto agli stati dell'arte su diversi dataset.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Il paper introduce JavisDiT, un modello Transformer di diffusione congiunto audio-video che garantisce una generazione sincronizzata di alta qualità attraverso un meccanismo di priorizzazione spaziotemporale gerarchica (HiST-Sypo) e un nuovo benchmark chiamato JavisBench.

Kai Liu, Wei Li, Lai Chen + 8 more2026-02-24⚡ eess

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

Il paper introduce STEP, un metodo di probing leggero che incorpora l'ordine temporale tramite codifiche posizionali e un meccanismo di attenzione semplificato, superando sia il probing convenzionale che le tecniche di fine-tuning più pesanti nel riconoscimento di azioni quasi simmetriche per l'interazione uomo-robot.

Thinesh Thiyakesan Ponbagavathi, Alina Roitberg2026-02-24💻 cs

← Precedente Successivo →

cs.CV