cs.CV articoli | Gist.Science

RecoverMark: Robust Watermarking for Localization and Recovery of Manipulated Faces

Il paper propone RecoverMark, un framework di filigrana robusto che utilizza il contenuto facciale stesso come filigrana incorporata nello sfondo per localizzare, recuperare e verificare la proprietà delle immagini manipolate, superando le vulnerabilità dei metodi tradizionali agli attacchi di rimozione.

Haonan An, Xiaohui Ye, Guang Hua + 4 more2026-02-25💻 cs

Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection

Il paper presenta SIFormer, un modello transformer che migliora la rilevazione 3D di oggetti combinando radar 4D e telecamere attraverso un meccanismo di attivazione incrociata che integra le informazioni istanziali 2D nello spazio BEV, superando così le limitazioni delle fusioni esistenti e ottenendo prestazioni state-of-the-art su diversi dataset.

Xiaokai Bai, Lianqing Zheng, Si-Yuan Cao + 6 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Il paper presenta SurgAtt-Tracker, un framework innovativo che traccia l'attenzione chirurgica generando mappe di calore dense attraverso un riordinamento temporale delle proposte e un affinamento consapevole del movimento, supportato dal nuovo benchmark SurgAtt-1.16M per garantire una guida precisa del campo visivo durante la chirurgia minimamente invasiva.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

SD4R: Sparse-to-Dense Learning for 3D Object Detection with 4D Radar

Il paper presenta SD4R, un nuovo framework che trasforma le nuvole di punti radar 4D sparse e rumorose in rappresentazioni dense attraverso un generatore di punti foreground e un codificatore logit-query, ottenendo prestazioni allo stato dell'arte nella rilevazione 3D di oggetti.

Xiaokai Bai, Jiahao Cheng, Songkai Wang + 5 more2026-02-25💻 cs

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Questo studio dimostra la fattibilità dell'uso di modelli visione-linguaggio su video RGB per stimare in modo non invasivo le distanze orizzontali e verticali delle mani durante i sollevamenti manuali, ottenendo errori medi ridotti (6-8 cm) grazie a pipeline che integrano la segmentazione e la regressione temporale.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

Il paper presenta AnimeAgent, il primo framework multi-agente basato su modelli Image-to-Video che, ispirandosi al flusso di lavoro narrativo Disney e superando i limiti dei modelli statici, genera storyboard animati con coerenza, fedeltà allo stile e aderenza al prompt superiori allo stato dell'arte.

Hailong Yan, Shice Liu, Tao Wang + 5 more2026-02-25💻 cs

BoxSplitGen: A Generative Model for 3D Part Bounding Boxes in Varying Granularity

Il paper presenta BoxSplitGen, un framework generativo che facilita la creazione 3D interattiva iterando la divisione di bounding box da granularità grossolana a dettagliata per generare forme complesse.

Juil Koo, Wei-Tung Lin, Chanho Park + 2 more2026-02-25💻 cs

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

Il paper introduce BBQ, un modello di generazione di immagini da testo su larga scala che supera i limiti delle descrizioni linguistiche consentendo un controllo preciso su posizione e colore degli oggetti tramite l'uso diretto di coordinate numeriche e valori RGB all'interno di un framework di testo strutturato.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid + 6 more2026-02-25💻 cs

MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision

Il paper presenta MatchED, un modulo di supervisione basato sul matching che permette l'apprendimento end-to-end di mappe di bordi nitidi e a un pixel di larghezza, eliminando la necessità di post-elaborazione non differenziabile e ottenendo prestazioni allo stato dell'arte su diversi dataset.

Bedrettin Cetinkaya, Sinan Kalkan, Emre Akbas2026-02-25💻 cs

NGL-Prompter: Training-Free Sewing Pattern Estimation from a Single Image

Il paper presenta NGL-Prompter, un metodo senza addestramento che utilizza modelli linguistici visivi su larga scala e un nuovo linguaggio intermedio (NGL) per stimare con successo i pattern di cucito da singole immagini di moda, superando i limiti di generalizzazione e di gestione di outfit multistrato delle tecniche precedenti.

Anna Badalyan, Pratheba Selvaraju, Giorgio Becherini + 3 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Questo studio presenta un metodo basato sull'intelligenza artificiale, utilizzando il modello DeepLabV3 con backbone MobileNetV3 pre-addestrato su dati pubblici, per la segmentazione semantica dello straylight nelle telecamere spaziali, ottimizzato per l'implementazione su hardware con risorse limitate e valutato tramite metriche di sistema.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

Monocular Endoscopic Tissue 3D Reconstruction with Multi-Level Geometry Regularization

Questo lavoro propone un nuovo metodo basato su 3D Gaussian Splatting con regolarizzazione geometrica multilivello per la ricostruzione 3D in tempo reale di tessuti endoscopici deformabili, garantendo sia superfici lisce che deformazioni fisicamente plausibili.

Yangsen Chen, Hao Wang2026-02-25💻 cs

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

Il paper presenta CleanStyle, un framework plug-and-play che elimina la fuoriuscita di contenuto nelle immagini generate da modelli di diffusione basati su stile, filtrando le componenti di rumore tramite SVD e introducendo una guida senza classificatore specifica per lo stile (SS-CFG) per migliorare la fedeltà al prompt e la coerenza stilistica senza necessità di riaddestramento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

Bridging Physically Based Rendering and Diffusion Models with Stochastic Differential Equation

Questo articolo propone un'unificazione tra il rendering basato sulla fisica e i modelli di diffusione attraverso una formulazione stocastica che, collegando l'integrazione Monte Carlo alle equazioni differenziali stocastiche, permette di esercitare un controllo fisico preciso sui risultati generati.

Junwei Shu, Wenjie Liu, Changgu Chen + 3 more2026-02-25💻 cs

Communication-Inspired Tokenization for Structured Image Representations

Il paper presenta COMiT, un nuovo framework di tokenizzazione visiva ispirato alla comunicazione umana che, attraverso un processo iterativo e ricorrente di aggiornamento dei token, genera rappresentazioni discrete strutturate e semanticamente coerenti, migliorando significativamente il ragionamento relazionale e la generalizzazione composizionale rispetto ai metodi esistenti.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

PyVision-RL: Forging Open Agentic Vision Models via RL

Il paper introduce PyVision-RL, un framework di reinforcement learning che stabilizza l'addestramento dei modelli multimodali agentic prevenendo il collasso dell'interazione attraverso strategie di campionamento e ricompense accumulate, sviluppando modelli efficaci per la comprensione di immagini e video con un'elaborazione visiva on-demand.

Shitian Zhao, Shaoheng Lin, Ming Li + 4 more2026-02-25🤖 cs.AI

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

Il paper presenta OrthoDiffusion, un modello fondazionale basato sulla diffusione che, grazie al pre-addestramento auto-supervisionato su migliaia di risonanze magnetiche del ginocchio, dimostra un'eccellente capacità di segmentazione e diagnosi multi-task, superando i modelli tradizionali in termini di robustezza, efficienza con dati limitati e trasferibilità ad altre articolazioni come caviglia e spalla.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Questo lavoro propone un approccio di apprendimento federato che utilizza l'aumento dei dati tramite la trasformazione globale non lineare delle intensità (GIN) per superare le sfide della segmentazione di immagini mediche cross-modali, ottenendo prestazioni di generalizzazione superiori senza compromettere la privacy dei dati.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

Real-time Motion Segmentation with Event-based Normal Flow

Questo lavoro propone un framework per la segmentazione del movimento in tempo reale basato su telecamere a eventi, che utilizza il flusso normale come rappresentazione intermedia per formulare il problema come minimizzazione di energia risolta tramite tagli del grafo, ottenendo un'accuratezza elevata e un'accelerazione computazionale di circa 800 volte rispetto agli stati dell'arte esistenti.

Sheng Zhong, Zhongyang Ren, Xiya Zhu + 3 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

Il paper presenta VGGDrive, una nuova architettura che potenzia i modelli visione-linguaggio per la guida autonoma integrando, tramite un modulo plug-and-play chiamato CVGE, le capacità di grounding geometrico 3D cross-view di modelli fondazione maturi, migliorando significativamente le prestazioni su diversi benchmark di guida autonoma.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

← Precedente Successivo →