cs.CV articoli | Gist.Science

Face Pyramid Vision Transformer

Il documento propone il Face Pyramid Vision Transformer (FPVT), una nuova architettura che integra meccanismi di riduzione spaziale e dimensionale con un embedding di patch migliorato e una rete feed-forward convoluzionale per estrarre rappresentazioni facciali discriminative multi-scala, ottenendo prestazioni eccellenti su diversi benchmark con un numero ridotto di parametri rispetto agli stati dell'arte esistenti.

Khawar Islam, Muhammad Zaigham Zaheer, Arif Mahmood2026-02-24💻 cs

Learning to See the Elephant in the Room: Self-Supervised Context Reasoning in Humans and AI

Questo studio combina esperimenti psicofisici umani e un modello computazionale biologicamente ispirato chiamato SeCo per dimostrare che sia gli esseri umani che l'intelligenza artificiale possono apprendere rapidamente il ragionamento contestuale e inferire oggetti nascosti in scene complesse senza supervisione esplicita.

Xiao Liu, Soumick Sarker, Ankur Sikarwar + 4 more2026-02-24🤖 cs.AI

RDFC-GAN: RGB-Depth Fusion CycleGAN for Indoor Depth Completion

Il paper presenta RDFC-GAN, una rete di fusione end-to-end basata su CycleGAN che combina una struttura encoder-decoder con mappature di normalità e un modulo di fusione RGB-profondità per generare mappe di profondità dense e complete a partire da dati incompleti in ambienti interni, superando le limitazioni delle tecniche esistenti su regioni estese prive di dati.

Haowen Wang, Zhengping Che, Yufan Yang + 6 more2026-02-24🤖 cs.AI

Adaptive Runge-Kutta Dynamics for Spatiotemporal Prediction

Questo paper propone un modello di previsione spaziotemporale basato su una rete neurale guidata da principi fisici che utilizza un metodo di Runge-Kutta adattivo del secondo ordine e un modulo Fourier potenziato per la frequenza, ottenendo prestazioni superiori rispetto agli stati dell'arte con un numero ridotto di parametri.

Xuanle Zhao, Yue Sun, Ziyi Wang + 2 more2026-02-24🤖 cs.AI

Deep-Learning-Based Markerless Pose Estimation Systems in Gait Analysis: DeepLabCut Custom Training and the Refinement Function

Questo studio dimostra che un sistema di stima della posa senza marcatori basato su DeepLabCut addestrato su misura e affinato con la funzione di raffinamento supera le prestazioni dei modelli pre-addestrati e di OpenPose, offrendo una soluzione economica e precisa per l'analisi del cammino in ambienti naturali.

Giulia Panconi, Stefano Grasso, Sara Guarducci + 3 more2026-02-24💻 cs

(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork

Il paper presenta PASS, un nuovo framework basato su una rete iper-recorrente che utilizza prompt visivi per identificare modelli di sparsità strutturale di alta qualità, migliorando significativamente l'efficienza e l'accuratezza dei modelli di visione artificiale rispetto alle tecniche di pruning tradizionali.

Tianjin Huang, Fang Meng, Li Shen + 5 more2026-02-24🤖 cs.AI

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Il paper introduce MathScape, un nuovo benchmark basato su immagini reali che valuta le capacità di ragionamento matematico dei modelli multimodali, rivelando che anche i modelli più avanzati faticano a gestire contesti pratici rispetto a quelli sintetici e rimangono inferiori alle prestazioni umane.

Hao Liang, Linzhuang Sun, Minxuan Zhou + 7 more2026-02-24💬 cs.CL

$R^2$ -Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement

Il paper propone $R^2$ -Mesh, un framework di apprendimento per rinforzo che migliora la ricostruzione di mesh da NeRF combinando la supervisione tramite immagini pseudo-sintetizzate con una strategia di selezione dinamica delle viste basata su UCB per ottimizzare simultaneamente geometria e aspetto.

Haoyang Wang, Liming Liu, Xinggong Zhang2026-02-24💻 cs

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes

Il paper propone il modello CT-AGRG, un sistema che genera relazioni radiologiche guidate dalle anomalie individuate nei volumi CT toracici 3D, migliorando significativamente la qualità e la rilevanza clinica dei report rispetto ai metodi esistenti.

Theo Di Piazza, Carole Lazarus, Olivier Nempont + 1 more2026-02-24⚡ eess

Geometry Distributions

Questo lavoro propone una nuova rappresentazione geometrica basata su distribuzioni e modelli di diffusione che supera i limiti delle reti coordinate tradizionali, consentendo di modellare con alta fedeltà strutture complesse e non chiuse, oltre a abilitare applicazioni avanzate come la compressione neurale e il rendering dinamico.

Biao Zhang, Jing Ren, Peter Wonka2026-02-24💻 cs

Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives

Il paper presenta Speedy-Splat, un approccio che accelera drasticamente il rendering e riduce le dimensioni del modello nella ricostruzione 3D tramite Gaussian Splatting ottimizzando la localizzazione delle primitive e introducendo una nuova tecnica di pruning.

Alex Hanson, Allen Tu, Geng Lin + 3 more2026-02-24💻 cs

MEt3R: Measuring Multi-View Consistency in Generated Images

Il paper introduce MEt3R, una nuova metrica indipendente dal processo di campionamento che valuta la coerenza multi-vista nelle immagini generate sfruttando ricostruzioni 3D dense ottenute tramite DUSt3R per confrontare le mappe di caratteristiche e misurare la similarità in modo invariante agli effetti dipendenti dalla vista.

Mohammad Asim, Christopher Wewer, Thomas Wimmer + 2 more2026-02-24⚡ eess

A polynomial formula for the perspective four points problem

Il paper presenta una soluzione rapida e accurata al problema della prospettiva a quattro punti, basata su una nuova separazione delle variabili che riduce il problema a un'orientazione assoluta risolvibile con formule esplicite, risultando significativamente più veloce degli algoritmi esistenti mantenendo un'accuratezza comparabile.

David Lehavi, Brian Osserman2026-02-24💻 cs

Learning Street View Representations with Spatiotemporal Contrast

Questo lavoro propone un innovativo framework di apprendimento auto-supervisionato che sfrutta le caratteristiche spaziali e temporali delle immagini Street View per apprendere rappresentazioni robuste degli ambienti urbani, superando i metodi esistenti in compiti come il riconoscimento dei luoghi, la stima socioeconomica e la percezione uomo-ambiente.

Yong Li, Yingjing Huang, Gengchen Mai + 1 more2026-02-24🤖 cs.AI

SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

Questo studio presenta SAMRI-2, un modello di visione artificiale basato sulla memoria e arricchito da una strategia di mescolamento ibrida, che supera le prestazioni degli attuali metodi di segmentazione per la cartilagine e il menisco nelle risonanze magnetiche 3D del ginocchio, garantendo alta precisione con un ridotto sforzo di annotazione.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

Il paper propone IVPT, un nuovo framework che migliora l'interpretabilità del visual prompt tuning collegando i prompt a concetti semantici umani attraverso prototipi cross-layer, garantendo al contempo prestazioni superiori nelle classificazioni fine-grained.

Yubin Wang, Xinyang Jiang, De Cheng + 4 more2026-02-24💻 cs

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Il paper introduce Hier-COS, un nuovo framework che allinea le rappresentazioni degli features alla gerarchia delle classi tramite sottospazi ortogonali, corregge le metriche di valutazione esistenti con HOPS e dimostra prestazioni superiori su dataset complessi rispetto agli stati dell'arte.

Depanshu Sani, Saket Anand2026-02-24🤖 cs.LG

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Il paper propone SpHOR, un metodo di apprendimento rappresentativo che migliora il riconoscimento in scenari open-set attraverso embedding di etichette ortogonali, vincoli sferici e tecniche di regolarizzazione, ottenendo risultati all'avanguardia su diversi benchmark.

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

PSGait: Gait Recognition using Parsing Skeleton

Il paper presenta PSGait, un framework innovativo che combina lo scheletro di parsing con i contorni per migliorare l'accuratezza e l'efficienza del riconoscimento dell'andatura in scenari reali, superando i metodi esistenti con minori risorse computazionali.

Hangrui Xu, Zhengxian Wu, Chuanrui Zhang + 4 more2026-02-24💻 cs

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

Il paper introduce VideoMind, un agente video-linguistico innovativo che utilizza un flusso di lavoro basato su ruoli e un meccanismo Chain-of-LoRA per migliorare il ragionamento temporale e la capacità di fornire risposte fondate su evidenze visive nei video.

Ye Liu, Kevin Qinghong Lin, Chang Wen Chen + 1 more2026-02-24🤖 cs.AI

← Precedente Successivo →

cs.CV