cs.CV articoli | Gist.Science

SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

Il paper presenta SiamGM, una rete Siamese innovativa che combina attenzione grafica inter-frame e guida del moto per risolvere le sfide del tracciamento di oggetti in video satellitari, ottenendo prestazioni all'avanguardia in tempo reale (130 FPS) su benchmark complessi.

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

Il paper propone GRD-Net, un nuovo approccio basato su GAN e attenzione alle regioni di interesse per la rilevazione e localizzazione di anomalie superficiali in contesti industriali, che supera i limiti dei metodi tradizionali riducendo la dipendenza da algoritmi di post-processing e migliorando la generalizzazione su dataset reali e sintetici.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

Questo paper presenta un modello efficiente per la comprensione delle scene RGB-D che, attraverso un encoder di fusione potenziato, strati di focus normalizzati, una struttura non bottleneck 1D e una funzione di perdita adattiva multi-task, supera le tecniche esistenti nella precisione e nella velocità su dataset come NYUv2, SUN RGB-D e Cityscapes.

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Questo articolo presenta un confronto sistematico di quattro obiettivi di addestramento per il rilevamento di dati fuori distribuzione nella classificazione di immagini, rivelando che la Cross-Entropy Loss offre le prestazioni più coerenti sia per i dati vicini che lontani dalla distribuzione rispetto ad altre funzioni di perdita.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Questo lavoro presenta un framework semi-supervisionato di rilevamento delle anomalie basato su un'architettura generativa avversaria con autoencoder residuo, progettato per l'implementazione online su una linea industriale ad alta velocità Blow-Fill-Seal nel settore farmaceutico, garantendo alta accuratezza e rispetto dei vincoli temporali utilizzando esclusivamente campioni nominali per l'addestramento.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

3DGS-HPC: Distractor-free 3D Gaussian Splatting with Hybrid Patch-wise Classification

Il paper presenta 3DGS-HPC, un nuovo framework che migliora la sintesi di nuove viste e il ricostruzione 3D eliminando gli elementi di disturbo transitori tramite una strategia di classificazione patch-wise e una metrica ibrida, superando così le limitazioni dei metodi basati su semantica pre-addestrata.

Jiahao Chen, Yipeng Qin, Ganlong Zhao, Xin Li, Wenping Wang, Guanbin Li2026-03-10💻 cs

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

Il paper introduce StructAttack, un framework di jailbreak che sfrutta la capacità dei modelli visione-linguaggio di assemblare semanticamente blocchi visivi apparentemente benigni in prompt strutturati per generare output dannosi senza attivare i meccanismi di sicurezza.

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

Il paper propone un metodo di semplificazione appreso delle nuvole di punti LiDAR basato sull'attenzione, che bilancia efficienza computazionale e accuratezza nel rilevamento e classificazione degli oggetti, superando i compromessi tipici delle tecniche di campionamento esistenti.

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

Il paper presenta EmbedTalk, un nuovo metodo per la sintesi di teste parlanti che sostituisce le tradizionali tri-piani con embedding appresi per guidare la deformazione di Gaussiani 3D, ottenendo così una qualità di rendering superiore, una sincronizzazione labiale più precisa e un'efficienza che permette l'esecuzione in tempo reale su GPU mobili.

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Looking Into the Water by Unsupervised Learning of the Surface Shape

Questo lavoro propone un metodo non supervisionato basato su reti neurali implicite (SIREN) per rimuovere le distorsioni da rifrazione nelle immagini aeree sott'acqua, ricostruendo simultaneamente la sequenza di immagini e la forma della superficie dell'acqua.

Ori Lifschitz, Tali Treibitz, Dan Rosenbaum2026-03-10💻 cs

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Il lavoro propone un nuovo framework di rappresentazione visiva implicita che codifica i segnali come funzioni parametriche di adattamenti a basso rango su modelli generativi congelati, permettendo una compressione video ad altissima efficienza e un controllo flessibile durante l'inferenza.

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu2026-03-10🤖 cs.LG

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Questo studio dimostra che le allucinazioni nei modelli visione-linguaggio derivano da un processo di "sovra-analisi" in cui ipotesi errate si propagano attraverso i livelli del decoder, e propone un nuovo indicatore, l'Overthinking Score, che analizza tale dinamica interna per rilevare le allucinazioni con maggiore precisione rispetto ai metodi basati sull'output finale.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding

Il paper presenta Duala, un framework di allineamento a doppio livello che migliora il decoding visivo fMRI cross-soggetto garantendo coerenza semantica degli stimoli e adattamento alle variazioni neurali individuali, ottenendo prestazioni superiori con dati di addestramento limitati.

Shumeng Li, Jintao Guo, Jian Zhang, Yulin Zhou, Luyang Cao, Yinghuan Shi2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

Il documento presenta Mobile GlottisNet, un framework di rilevamento della glottide leggero ed efficiente progettato per l'inferenza in tempo reale su dispositivi embedded, che supera i limiti computazionali esistenti attraverso meccanismi di decoupling spaziale e strategie di adattamento dinamico per migliorare la sicurezza nell'intubazione nasale d'emergenza.

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Il paper presenta una pipeline di generazione di dati sintetici basata su un Digital Twin dell'Aeroporto Internazionale di Algeri che, combinata con una ridotta quantità di annotazioni reali, permette di addestrare modelli di rilevamento dei carrelli bagagli con prestazioni pari o superiori all'uso esclusivo di dati reali, riducendo al contempo lo sforzo di annotazione del 25-35%.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Il paper presenta AtomicVLA, un framework unificato di pianificazione ed esecuzione che supera i limiti dei modelli VLA esistenti per compiti robotici a lungo raggio e apprendimento continuo, grazie a una libreria di abilità atomiche scalabile gestita da un mix di esperti guidato dalle competenze (SG-MoE) e a un codificatore di routing flessibile.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

Il paper presenta GLASS, un framework senza supervisione che integra l'analisi spettrale geometrica con i fondamenti visione-linguaggio per stabilire corrispondenze semantiche dense tra forme 3D, ottenendo prestazioni state-of-the-art anche in scenari di deformazione non isometrica e inter-classe.

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

Il paper propone il framework Self-Critical Inference (SCI) e il benchmark DRBench per migliorare la robustezza dei modelli visione-linguaggio su larga scala, affrontando simultaneamente i problemi di bias e sensibilità linguistica attraverso un ragionamento controfattuale multi-round e una valutazione dinamica specifica per modello.

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Il paper presenta Holi-Spatial, il primo dataset multimodale su larga scala e completamente automatizzato per l'intelligenza spaziale 3D, costruito a partire da flussi video grezzi senza intervento umano e utilizzato per addestrare modelli VLM con prestazioni superiori rispetto ai metodi esistenti.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

Il paper presenta Ref-DGS, un nuovo framework di Dual Gaussian Splatting che risolve il compromesso tra accuratezza e efficienza nella ricostruzione di superfici riflettenti e nella sintesi di nuove viste, decoupling la geometria dalle riflessioni speculari tramite una rappresentazione duale di Gaussiane e un shader adattivo, ottenendo prestazioni all'avanguardia senza costosi calcoli di ray tracing.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

← Precedente Successivo →