cs.CV articoli | Gist.Science

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens

SceMoS è un framework innovativo per la sintesi di movimenti umani 3D guidati dal testo che, disaccoppiando la pianificazione globale dall'esecuzione locale tramite rappresentazioni 2D (immagini BEV e mappe di altezza), raggiunge uno stato dell'arte nel realismo e nell'accuratezza dei contatti riducendo al contempo i parametri di addestramento rispetto ai metodi basati su dati 3D completi.

Anindita Ghosh, Vladislav Golyanik, Taku Komura + 3 more2026-02-25💻 cs

Path-Decoupled Hyperbolic Flow Matching for Few-Shot Adaptation

Il paper propone l'Hyperbolic Flow Matching (HFM) con disaccoppiamento del percorso, un metodo che supera i limiti della geometria euclidea sfruttando la varietà di Lorentz per allineare in modo più efficace le caratteristiche visive e semantiche nel contesto dell'adattamento few-shot, ottenendo risultati state-of-the-art su 11 benchmark.

Lin Li, Ziqi Jiang, Gefan Ye + 5 more2026-02-25💻 cs

Pip-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching

Il paper presenta Pip-Stereo, un metodo di matching stereo che supera i limiti di efficienza delle architetture iterative tradizionali su hardware edge grazie a una strategia di pruning progressivo, un trasferimento collaborativo di prior monoculari e un nuovo operatore FlashGRU, ottenendo prestazioni in tempo reale e alta accuratezza.

Jintu Zheng, Qizhe Liu, HuangXin Xu + 1 more2026-02-25💻 cs

Strategy-Supervised Autonomous Laparoscopic Camera Control via Event-Driven Graph Mining

Il lavoro presenta un sistema autonomo per il controllo della camera laparoscopica che combina l'estrazione di strategie da grafi temporali con un modello visione-linguaggio e un controllo di sicurezza, dimostrando prestazioni superiori rispetto ai chirurghi junior nella stabilizzazione dell'immagine e nel mantenimento della inquadratura.

Keyu Zhou, Peisen Xu, Yahao Wu + 3 more2026-02-25💻 cs

How Do Inpainting Artifacts Propagate to Language?

Questo studio analizza come gli artefatti introdotti dall'inpainting basato su diffusione influenzino la generazione linguistica nei modelli visione-linguaggio, fornendo un quadro diagnostico che collega la fedeltà della ricostruzione visiva alla qualità delle didascalie generate.

Pratham Yashwante, Davit Abrahamyan, Shresth Grover + 1 more2026-02-25🤖 cs.AI

A Lightweight Vision-Language Fusion Framework for Predicting App Ratings from User Interfaces and Metadata

Questo studio propone un framework leggero di fusione visione-linguaggio che integra MobileNetV3 e DistilBERT per prevedere le valutazioni delle app mobili combinando interfacce utente e informazioni semantiche, ottenendo risultati di alta precisione e favorendo un'implementazione efficiente su dispositivi edge.

Azrin Sultana, Firoz Ahmed2026-02-25💻 cs

Progressive Per-Branch Depth Optimization for DEFOM-Stereo and SAM3 Joint Analysis in UAV Forestry Applications

Questo articolo presenta una pipeline progressiva che integra DEFOM-Stereo, SAM3 e un'ottimizzazione multistadio della profondità per ridurre il rumore nelle mappe di disparità e generare nuvole di punti 3D coerenti per il singolo ramo, abilitando così la potatura autonoma degli alberi da parte di droni nelle foreste.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-25⚡ eess

Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

Questo studio presenta un sistema di controllo qualità farmaceutico basato su un approccio multi-agente che combina modelli di deep learning e vision-language per automatizzare il rilevamento delle colonie batteriche, riducendo la necessità di verifica umana dell'85% e garantendo conformità normativa.

Subhra Jyoti Mandal, Lara Rachidi, Puneet Jain + 2 more2026-02-25💻 cs

Robust Spiking Neural Networks Against Adversarial Attacks

Questo studio propone il metodo di ottimizzazione Threshold Guarding (TGO) per migliorare la robustezza delle Reti Neurali a Spike (SNN) contro gli attacchi avversari, spostando i potenziali di membrana lontano dalle soglie e introducendo rumore per ridurre la probabilità di inversione dello stato dei neuroni.

Shuai Wang, Malu Zhang, Yulin Jiang + 7 more2026-02-25💻 cs

Sample-efficient evidence estimation of score based priors for model selection

Il paper propone un metodo efficiente in termini di campioni per stimare l'evidenza del modello di prior basati su diffusione, consentendo la selezione del prior corretto e la diagnosi di inadeguatezza in problemi inversi di imaging altamente ill-posed, come l'imaging di buchi neri, utilizzando un numero ridotto di campioni posteriori.

Frederic Wang, Katherine L. Bouman2026-02-25📊 stat

The Finite Primitive Basis Theorem for Computational Imaging: Formal Foundations of the OperatorGraph Representation

Il teorema della base primitiva finita dimostra che ogni modello di imaging computazionale può essere rappresentato in modo approssimato come un grafo diretto aciclico composto da soli 11 primitivi canonici, fornendo così le fondamenta matematiche per il framework del Physics World Model.

Chengshuai Yang2026-02-25💻 cs

WildGHand: Learning Anti-Perturbation Gaussian Hand Avatars from Monocular In-the-Wild Videos

Il paper introduce WildGHand, un framework basato sull'ottimizzazione che utilizza lo splatting gaussiano 3D e un modulo di disaccoppiamento delle perturbazioni per ricostruire avatar di mani ad alta fedeltà da video monoculari in ambienti reali, superando le limitazioni delle metodologie esistenti in presenza di interazioni con oggetti, pose estreme e variazioni di illuminazione.

Hanhui Li, Xuan Huang, Wanquan Liu + 5 more2026-02-25💻 cs

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

Il paper presenta BFA++, un framework di pruning dinamico dei token progettato specificamente per i modelli Vision-Language-Action che, attraverso una strategia gerarchica a due livelli per identificare le regioni e le viste più rilevanti, migliora significativamente l'efficienza computazionale e il tasso di successo nelle manipolazioni robotiche reali.

Haosheng Li, Weixin Mao, Zihan Lan + 6 more2026-02-25💻 cs

AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents

Il paper presenta AIForge-Doc, il primo benchmark dedicato alla rilevazione di falsificazioni documentali finanziarie generate da modelli di diffusione, dimostrando che gli attuali rilevatori e i modelli VLM falliscono nel distinguere tali manipolazioni rispetto ai metodi di editing tradizionali.

Jiaqi Wu, Yuchen Zhou, Muduo Xu + 6 more2026-02-25💻 cs

An interactive enhanced driving dataset for autonomous driving

Questo paper presenta l'IEDD, un dataset interattivo su larga scala per la guida autonoma che supera le limitazioni dei dati esistenti attraverso un pipeline di estrazione di segmenti interattivi e la creazione di un dataset VQA con allineamento multimodale rigoroso, dimostrando il suo valore nel valutare e affinare le capacità di ragionamento dei modelli Vision-Language-Action.

Haojie Feng, Peizhi Zhang, Mengjie Tian + 8 more2026-02-25💻 cs

Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion

Il paper presenta MVLAD-AD, un nuovo framework di diffusione mascherata che combina tokenizzazione discreta delle azioni e apprendimento di embedding geometrici per realizzare una guida autonoma end-to-end efficiente, precisa e spiegabile, superando i limiti di latenza e struttura dei modelli linguistici e di diffusione esistenti.

Jiaru Zhang, Manav Gagvani, Can Cui + 3 more2026-02-25💻 cs

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Il paper propone PropFly, un nuovo metodo di editing video che supera la necessità di dataset accoppiati addestrando un modello a propagare le modifiche sfruttando supervisione on-the-fly generata direttamente da modelli di diffusione video pre-addestrati.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Questo articolo presenta un metodo di ricostruzione 3D congiunta che supera i limiti dei pipeline SfM tradizionali in scenari di monitoraggio a lungo termine con drastici cambiamenti di aspetto, integrando corrispondenze cross-sessione tramite una combinazione di feature visive manuali e apprese per generare modelli coerenti anche dopo anni.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Il paper propone InterFormer, un modello end-to-end basato su transformer che risolve le limitazioni delle metodologie esistenti per l'analisi delle interazioni mano-oggetto in visione egocentrica integrando un generatore di query dinamico, un selettore di caratteristiche a doppio contesto e una funzione di perdita di coerenza di co-occorrenza per ottenere risultati allo stato dell'arte su dataset come EgoHOS e mini-HOI4D.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos

Il paper introduce VAGNet, un nuovo framework che sfrutta le interazioni dinamiche uomo-oggetto nei video per migliorare il grounding dell'affordance 3D, accompagnato dal lancio del primo dataset PVAD dedicato a questo compito.

Aihua Mao, Kaihang Huang, Yong-Jin Liu + 2 more2026-02-25💻 cs

← Precedente Successivo →