cs.CV articoli | Gist.Science

Progressive Per-Branch Depth Optimization for DEFOM-Stereo and SAM3 Joint Analysis in UAV Forestry Applications

Questo articolo presenta una pipeline progressiva che integra DEFOM-Stereo, SAM3 e un'ottimizzazione multistadio della profondità per ridurre il rumore nelle mappe di disparità e generare nuvole di punti 3D coerenti per il singolo ramo, abilitando così la potatura autonoma degli alberi da parte di droni nelle foreste.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-25⚡ eess

Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

Questo studio presenta un sistema di controllo qualità farmaceutico basato su un approccio multi-agente che combina modelli di deep learning e vision-language per automatizzare il rilevamento delle colonie batteriche, riducendo la necessità di verifica umana dell'85% e garantendo conformità normativa.

Subhra Jyoti Mandal, Lara Rachidi, Puneet Jain + 2 more2026-02-25💻 cs

Robust Spiking Neural Networks Against Adversarial Attacks

Questo studio propone il metodo di ottimizzazione Threshold Guarding (TGO) per migliorare la robustezza delle Reti Neurali a Spike (SNN) contro gli attacchi avversari, spostando i potenziali di membrana lontano dalle soglie e introducendo rumore per ridurre la probabilità di inversione dello stato dei neuroni.

Shuai Wang, Malu Zhang, Yulin Jiang + 7 more2026-02-25💻 cs

Sample-efficient evidence estimation of score based priors for model selection

Il paper propone un metodo efficiente in termini di campioni per stimare l'evidenza del modello di prior basati su diffusione, consentendo la selezione del prior corretto e la diagnosi di inadeguatezza in problemi inversi di imaging altamente ill-posed, come l'imaging di buchi neri, utilizzando un numero ridotto di campioni posteriori.

Frederic Wang, Katherine L. Bouman2026-02-25📊 stat

The Finite Primitive Basis Theorem for Computational Imaging: Formal Foundations of the OperatorGraph Representation

Il teorema della base primitiva finita dimostra che ogni modello di imaging computazionale può essere rappresentato in modo approssimato come un grafo diretto aciclico composto da soli 11 primitivi canonici, fornendo così le fondamenta matematiche per il framework del Physics World Model.

Chengshuai Yang2026-02-25💻 cs

WildGHand: Learning Anti-Perturbation Gaussian Hand Avatars from Monocular In-the-Wild Videos

Il paper introduce WildGHand, un framework basato sull'ottimizzazione che utilizza lo splatting gaussiano 3D e un modulo di disaccoppiamento delle perturbazioni per ricostruire avatar di mani ad alta fedeltà da video monoculari in ambienti reali, superando le limitazioni delle metodologie esistenti in presenza di interazioni con oggetti, pose estreme e variazioni di illuminazione.

Hanhui Li, Xuan Huang, Wanquan Liu + 5 more2026-02-25💻 cs

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

Il paper presenta BFA++, un framework di pruning dinamico dei token progettato specificamente per i modelli Vision-Language-Action che, attraverso una strategia gerarchica a due livelli per identificare le regioni e le viste più rilevanti, migliora significativamente l'efficienza computazionale e il tasso di successo nelle manipolazioni robotiche reali.

Haosheng Li, Weixin Mao, Zihan Lan + 6 more2026-02-25💻 cs

AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents

Il paper presenta AIForge-Doc, il primo benchmark dedicato alla rilevazione di falsificazioni documentali finanziarie generate da modelli di diffusione, dimostrando che gli attuali rilevatori e i modelli VLM falliscono nel distinguere tali manipolazioni rispetto ai metodi di editing tradizionali.

Jiaqi Wu, Yuchen Zhou, Muduo Xu + 6 more2026-02-25💻 cs

An interactive enhanced driving dataset for autonomous driving

Questo paper presenta l'IEDD, un dataset interattivo su larga scala per la guida autonoma che supera le limitazioni dei dati esistenti attraverso un pipeline di estrazione di segmenti interattivi e la creazione di un dataset VQA con allineamento multimodale rigoroso, dimostrando il suo valore nel valutare e affinare le capacità di ragionamento dei modelli Vision-Language-Action.

Haojie Feng, Peizhi Zhang, Mengjie Tian + 8 more2026-02-25💻 cs

Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion

Il paper presenta MVLAD-AD, un nuovo framework di diffusione mascherata che combina tokenizzazione discreta delle azioni e apprendimento di embedding geometrici per realizzare una guida autonoma end-to-end efficiente, precisa e spiegabile, superando i limiti di latenza e struttura dei modelli linguistici e di diffusione esistenti.

Jiaru Zhang, Manav Gagvani, Can Cui + 3 more2026-02-25💻 cs

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Il paper propone PropFly, un nuovo metodo di editing video che supera la necessità di dataset accoppiati addestrando un modello a propagare le modifiche sfruttando supervisione on-the-fly generata direttamente da modelli di diffusione video pre-addestrati.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Questo articolo presenta un metodo di ricostruzione 3D congiunta che supera i limiti dei pipeline SfM tradizionali in scenari di monitoraggio a lungo termine con drastici cambiamenti di aspetto, integrando corrispondenze cross-sessione tramite una combinazione di feature visive manuali e apprese per generare modelli coerenti anche dopo anni.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Il paper propone InterFormer, un modello end-to-end basato su transformer che risolve le limitazioni delle metodologie esistenti per l'analisi delle interazioni mano-oggetto in visione egocentrica integrando un generatore di query dinamico, un selettore di caratteristiche a doppio contesto e una funzione di perdita di coerenza di co-occorrenza per ottenere risultati allo stato dell'arte su dataset come EgoHOS e mini-HOI4D.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos

Il paper introduce VAGNet, un nuovo framework che sfrutta le interazioni dinamiche uomo-oggetto nei video per migliorare il grounding dell'affordance 3D, accompagnato dal lancio del primo dataset PVAD dedicato a questo compito.

Aihua Mao, Kaihang Huang, Yong-Jin Liu + 2 more2026-02-25💻 cs

Knowing the Unknown: Interpretable Open-World Object Detection via Concept Decomposition Model

Questo articolo propone IPOW, un framework di rilevamento di oggetti in mondo aperto interpretabile basato su un modello di decomposizione concettuale che migliora il riconoscimento degli oggetti sconosciuti e riduce la confusione tra categorie note e ignote attraverso la separazione esplicita delle caratteristiche in concetti discriminativi, condivisi e di sfondo.

Xueqiang Lv, Shizhou Zhang, Yinghui Xing + 3 more2026-02-25🤖 cs.LG

RecoverMark: Robust Watermarking for Localization and Recovery of Manipulated Faces

Il paper propone RecoverMark, un framework di filigrana robusto che utilizza il contenuto facciale stesso come filigrana incorporata nello sfondo per localizzare, recuperare e verificare la proprietà delle immagini manipolate, superando le vulnerabilità dei metodi tradizionali agli attacchi di rimozione.

Haonan An, Xiaohui Ye, Guang Hua + 4 more2026-02-25💻 cs

Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection

Il paper presenta SIFormer, un modello transformer che migliora la rilevazione 3D di oggetti combinando radar 4D e telecamere attraverso un meccanismo di attivazione incrociata che integra le informazioni istanziali 2D nello spazio BEV, superando così le limitazioni delle fusioni esistenti e ottenendo prestazioni state-of-the-art su diversi dataset.

Xiaokai Bai, Lianqing Zheng, Si-Yuan Cao + 6 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Il paper presenta SurgAtt-Tracker, un framework innovativo che traccia l'attenzione chirurgica generando mappe di calore dense attraverso un riordinamento temporale delle proposte e un affinamento consapevole del movimento, supportato dal nuovo benchmark SurgAtt-1.16M per garantire una guida precisa del campo visivo durante la chirurgia minimamente invasiva.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

SD4R: Sparse-to-Dense Learning for 3D Object Detection with 4D Radar

Il paper presenta SD4R, un nuovo framework che trasforma le nuvole di punti radar 4D sparse e rumorose in rappresentazioni dense attraverso un generatore di punti foreground e un codificatore logit-query, ottenendo prestazioni allo stato dell'arte nella rilevazione 3D di oggetti.

Xiaokai Bai, Jiahao Cheng, Songkai Wang + 5 more2026-02-25💻 cs

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Questo studio dimostra la fattibilità dell'uso di modelli visione-linguaggio su video RGB per stimare in modo non invasivo le distanze orizzontali e verticali delle mani durante i sollevamenti manuali, ottenendo errori medi ridotti (6-8 cm) grazie a pipeline che integrano la segmentazione e la regressione temporale.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

← Precedente Successivo →