cs.CV articoli | Gist.Science

Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion

Il paper presenta MVLAD-AD, un nuovo framework di diffusione mascherata che combina tokenizzazione discreta delle azioni e apprendimento di embedding geometrici per realizzare una guida autonoma end-to-end efficiente, precisa e spiegabile, superando i limiti di latenza e struttura dei modelli linguistici e di diffusione esistenti.

Jiaru Zhang, Manav Gagvani, Can Cui + 3 more2026-02-25💻 cs

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Il paper propone PropFly, un nuovo metodo di editing video che supera la necessità di dataset accoppiati addestrando un modello a propagare le modifiche sfruttando supervisione on-the-fly generata direttamente da modelli di diffusione video pre-addestrati.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Questo articolo presenta un metodo di ricostruzione 3D congiunta che supera i limiti dei pipeline SfM tradizionali in scenari di monitoraggio a lungo termine con drastici cambiamenti di aspetto, integrando corrispondenze cross-sessione tramite una combinazione di feature visive manuali e apprese per generare modelli coerenti anche dopo anni.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Il paper propone InterFormer, un modello end-to-end basato su transformer che risolve le limitazioni delle metodologie esistenti per l'analisi delle interazioni mano-oggetto in visione egocentrica integrando un generatore di query dinamico, un selettore di caratteristiche a doppio contesto e una funzione di perdita di coerenza di co-occorrenza per ottenere risultati allo stato dell'arte su dataset come EgoHOS e mini-HOI4D.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos

Il paper introduce VAGNet, un nuovo framework che sfrutta le interazioni dinamiche uomo-oggetto nei video per migliorare il grounding dell'affordance 3D, accompagnato dal lancio del primo dataset PVAD dedicato a questo compito.

Aihua Mao, Kaihang Huang, Yong-Jin Liu + 2 more2026-02-25💻 cs

Knowing the Unknown: Interpretable Open-World Object Detection via Concept Decomposition Model

Questo articolo propone IPOW, un framework di rilevamento di oggetti in mondo aperto interpretabile basato su un modello di decomposizione concettuale che migliora il riconoscimento degli oggetti sconosciuti e riduce la confusione tra categorie note e ignote attraverso la separazione esplicita delle caratteristiche in concetti discriminativi, condivisi e di sfondo.

Xueqiang Lv, Shizhou Zhang, Yinghui Xing + 3 more2026-02-25🤖 cs.LG

RecoverMark: Robust Watermarking for Localization and Recovery of Manipulated Faces

Il paper propone RecoverMark, un framework di filigrana robusto che utilizza il contenuto facciale stesso come filigrana incorporata nello sfondo per localizzare, recuperare e verificare la proprietà delle immagini manipolate, superando le vulnerabilità dei metodi tradizionali agli attacchi di rimozione.

Haonan An, Xiaohui Ye, Guang Hua + 4 more2026-02-25💻 cs

Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection

Il paper presenta SIFormer, un modello transformer che migliora la rilevazione 3D di oggetti combinando radar 4D e telecamere attraverso un meccanismo di attivazione incrociata che integra le informazioni istanziali 2D nello spazio BEV, superando così le limitazioni delle fusioni esistenti e ottenendo prestazioni state-of-the-art su diversi dataset.

Xiaokai Bai, Lianqing Zheng, Si-Yuan Cao + 6 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Il paper presenta SurgAtt-Tracker, un framework innovativo che traccia l'attenzione chirurgica generando mappe di calore dense attraverso un riordinamento temporale delle proposte e un affinamento consapevole del movimento, supportato dal nuovo benchmark SurgAtt-1.16M per garantire una guida precisa del campo visivo durante la chirurgia minimamente invasiva.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

SD4R: Sparse-to-Dense Learning for 3D Object Detection with 4D Radar

Il paper presenta SD4R, un nuovo framework che trasforma le nuvole di punti radar 4D sparse e rumorose in rappresentazioni dense attraverso un generatore di punti foreground e un codificatore logit-query, ottenendo prestazioni allo stato dell'arte nella rilevazione 3D di oggetti.

Xiaokai Bai, Jiahao Cheng, Songkai Wang + 5 more2026-02-25💻 cs

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Questo studio dimostra la fattibilità dell'uso di modelli visione-linguaggio su video RGB per stimare in modo non invasivo le distanze orizzontali e verticali delle mani durante i sollevamenti manuali, ottenendo errori medi ridotti (6-8 cm) grazie a pipeline che integrano la segmentazione e la regressione temporale.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

Il paper presenta AnimeAgent, il primo framework multi-agente basato su modelli Image-to-Video che, ispirandosi al flusso di lavoro narrativo Disney e superando i limiti dei modelli statici, genera storyboard animati con coerenza, fedeltà allo stile e aderenza al prompt superiori allo stato dell'arte.

Hailong Yan, Shice Liu, Tao Wang + 5 more2026-02-25💻 cs

BoxSplitGen: A Generative Model for 3D Part Bounding Boxes in Varying Granularity

Il paper presenta BoxSplitGen, un framework generativo che facilita la creazione 3D interattiva iterando la divisione di bounding box da granularità grossolana a dettagliata per generare forme complesse.

Juil Koo, Wei-Tung Lin, Chanho Park + 2 more2026-02-25💻 cs

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

Il paper introduce BBQ, un modello di generazione di immagini da testo su larga scala che supera i limiti delle descrizioni linguistiche consentendo un controllo preciso su posizione e colore degli oggetti tramite l'uso diretto di coordinate numeriche e valori RGB all'interno di un framework di testo strutturato.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid + 6 more2026-02-25💻 cs

MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision

Il paper presenta MatchED, un modulo di supervisione basato sul matching che permette l'apprendimento end-to-end di mappe di bordi nitidi e a un pixel di larghezza, eliminando la necessità di post-elaborazione non differenziabile e ottenendo prestazioni allo stato dell'arte su diversi dataset.

Bedrettin Cetinkaya, Sinan Kalkan, Emre Akbas2026-02-25💻 cs

NGL-Prompter: Training-Free Sewing Pattern Estimation from a Single Image

Il paper presenta NGL-Prompter, un metodo senza addestramento che utilizza modelli linguistici visivi su larga scala e un nuovo linguaggio intermedio (NGL) per stimare con successo i pattern di cucito da singole immagini di moda, superando i limiti di generalizzazione e di gestione di outfit multistrato delle tecniche precedenti.

Anna Badalyan, Pratheba Selvaraju, Giorgio Becherini + 3 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Questo studio presenta un metodo basato sull'intelligenza artificiale, utilizzando il modello DeepLabV3 con backbone MobileNetV3 pre-addestrato su dati pubblici, per la segmentazione semantica dello straylight nelle telecamere spaziali, ottimizzato per l'implementazione su hardware con risorse limitate e valutato tramite metriche di sistema.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

Monocular Endoscopic Tissue 3D Reconstruction with Multi-Level Geometry Regularization

Questo lavoro propone un nuovo metodo basato su 3D Gaussian Splatting con regolarizzazione geometrica multilivello per la ricostruzione 3D in tempo reale di tessuti endoscopici deformabili, garantendo sia superfici lisce che deformazioni fisicamente plausibili.

Yangsen Chen, Hao Wang2026-02-25💻 cs

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

Il paper presenta CleanStyle, un framework plug-and-play che elimina la fuoriuscita di contenuto nelle immagini generate da modelli di diffusione basati su stile, filtrando le componenti di rumore tramite SVD e introducendo una guida senza classificatore specifica per lo stile (SS-CFG) per migliorare la fedeltà al prompt e la coerenza stilistica senza necessità di riaddestramento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

Bridging Physically Based Rendering and Diffusion Models with Stochastic Differential Equation

Questo articolo propone un'unificazione tra il rendering basato sulla fisica e i modelli di diffusione attraverso una formulazione stocastica che, collegando l'integrazione Monte Carlo alle equazioni differenziali stocastiche, permette di esercitare un controllo fisico preciso sui risultati generati.

Junwei Shu, Wenjie Liu, Changgu Chen + 3 more2026-02-25💻 cs

← Precedente Successivo →