cs.CV articoli | Gist.Science

Monocular Endoscopic Tissue 3D Reconstruction with Multi-Level Geometry Regularization

Questo lavoro propone un nuovo metodo basato su 3D Gaussian Splatting con regolarizzazione geometrica multilivello per la ricostruzione 3D in tempo reale di tessuti endoscopici deformabili, garantendo sia superfici lisce che deformazioni fisicamente plausibili.

Yangsen Chen, Hao Wang2026-02-25💻 cs

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

Il paper presenta CleanStyle, un framework plug-and-play che elimina la fuoriuscita di contenuto nelle immagini generate da modelli di diffusione basati su stile, filtrando le componenti di rumore tramite SVD e introducendo una guida senza classificatore specifica per lo stile (SS-CFG) per migliorare la fedeltà al prompt e la coerenza stilistica senza necessità di riaddestramento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

Bridging Physically Based Rendering and Diffusion Models with Stochastic Differential Equation

Questo articolo propone un'unificazione tra il rendering basato sulla fisica e i modelli di diffusione attraverso una formulazione stocastica che, collegando l'integrazione Monte Carlo alle equazioni differenziali stocastiche, permette di esercitare un controllo fisico preciso sui risultati generati.

Junwei Shu, Wenjie Liu, Changgu Chen + 3 more2026-02-25💻 cs

Communication-Inspired Tokenization for Structured Image Representations

Il paper presenta COMiT, un nuovo framework di tokenizzazione visiva ispirato alla comunicazione umana che, attraverso un processo iterativo e ricorrente di aggiornamento dei token, genera rappresentazioni discrete strutturate e semanticamente coerenti, migliorando significativamente il ragionamento relazionale e la generalizzazione composizionale rispetto ai metodi esistenti.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

PyVision-RL: Forging Open Agentic Vision Models via RL

Il paper introduce PyVision-RL, un framework di reinforcement learning che stabilizza l'addestramento dei modelli multimodali agentic prevenendo il collasso dell'interazione attraverso strategie di campionamento e ricompense accumulate, sviluppando modelli efficaci per la comprensione di immagini e video con un'elaborazione visiva on-demand.

Shitian Zhao, Shaoheng Lin, Ming Li + 4 more2026-02-25🤖 cs.AI

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

Il paper presenta OrthoDiffusion, un modello fondazionale basato sulla diffusione che, grazie al pre-addestramento auto-supervisionato su migliaia di risonanze magnetiche del ginocchio, dimostra un'eccellente capacità di segmentazione e diagnosi multi-task, superando i modelli tradizionali in termini di robustezza, efficienza con dati limitati e trasferibilità ad altre articolazioni come caviglia e spalla.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Questo lavoro propone un approccio di apprendimento federato che utilizza l'aumento dei dati tramite la trasformazione globale non lineare delle intensità (GIN) per superare le sfide della segmentazione di immagini mediche cross-modali, ottenendo prestazioni di generalizzazione superiori senza compromettere la privacy dei dati.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

Real-time Motion Segmentation with Event-based Normal Flow

Questo lavoro propone un framework per la segmentazione del movimento in tempo reale basato su telecamere a eventi, che utilizza il flusso normale come rappresentazione intermedia per formulare il problema come minimizzazione di energia risolta tramite tagli del grafo, ottenendo un'accuratezza elevata e un'accelerazione computazionale di circa 800 volte rispetto agli stati dell'arte esistenti.

Sheng Zhong, Zhongyang Ren, Xiya Zhu + 3 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

Il paper presenta VGGDrive, una nuova architettura che potenzia i modelli visione-linguaggio per la guida autonoma integrando, tramite un modulo plug-and-play chiamato CVGE, le capacità di grounding geometrico 3D cross-view di modelli fondazione maturi, migliorando significativamente le prestazioni su diversi benchmark di guida autonoma.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

RU4D-SLAM: Reweighting Uncertainty in Gaussian Splatting SLAM for 4D Scene Reconstruction

Il paper propone RU4D-SLAM, un framework robusto ed efficiente che integra fattori temporali, rendering di motion blur e un meccanismo di riponderazione semantica dell'incertezza per migliorare il tracciamento e la ricostruzione di scene 4D dinamiche, superando le prestazioni degli approcci esistenti in ambienti con oggetti in movimento e input di bassa qualità.

Yangfan Zhao, Hanwei Zhang, Ke Huang + 3 more2026-02-25💻 cs

GatedCLIP: Gated Multimodal Fusion for Hateful Memes Detection

Il paper presenta GatedCLIP, un modello di visione e linguaggio che migliora la rilevazione dei meme d'odio attraverso un meccanismo di fusione dinamica e proiezioni apprese, ottenendo prestazioni significativamente superiori rispetto alla baseline CLIP sul dataset Hateful Memes con un numero limitato di parametri.

Yingying Guo, Ke Zhang, Zirong Zeng2026-02-25💻 cs

FLIM Networks with Bag of Feature Points

Questo studio introduce FLIM-BoFP, un metodo di stima dei filtri più rapido ed efficiente rispetto all'approccio precedente FLIM-Cluster, che permette di addestrare reti neurali per la rilevazione di oggetti salienti senza retropropagazione utilizzando solo marcatori utente, dimostrando efficacia nella rilevazione di parassiti in immagini di microscopia ottica.

João Deltregia Martinelli, Marcelo Luis Rodrigues Filho, Felipe Crispim da Rocha Salvagnini + 3 more2026-02-25💻 cs

Hybrid Fusion: One-Minute Efficient Training for Zero-Shot Cross-Domain Image Fusion

Il paper propone "Hybrid Fusion", un nuovo framework ibrido che combina una U-Net apprendibile con un kernel di fusione Laplaciano fisso per ottenere prestazioni all'avanguardia in un minuto di addestramento, eliminando il divario tra addestramento e inferenza e garantendo un'ottima generalizzazione zero-shot senza dipendere da modelli esterni.

Ran Zhang, Xuanhua He, Liu Liu2026-02-25💻 cs

On the Explainability of Vision-Language Models in Art History

Questo studio esamina l'applicabilità dei metodi di Intelligenza Artificiale Spiegabile (XAI) per rendere interpretabile il ragionamento visivo del modello CLIP nel contesto della storia dell'arte, dimostrando che la loro efficacia dipende dalla stabilità concettuale e dalla disponibilità rappresentativa delle categorie analizzate.

Stefanie Schneider2026-02-25💻 cs

DA-Cal: Towards Cross-Domain Calibration in Semantic Segmentation

Il paper propone DA-Cal, un framework di calibrazione cross-dominio che ottimizza le pseudo-label morbide tramite una Meta Temperature Network e un'ottimizzazione bi-livello, migliorando significativamente l'affidabilità e le prestazioni della segmentazione semantica in contesti di adattamento di dominio non supervisionato senza aggiungere overhead inferenziale.

Wangkai Li, Rui Sun, Zhaoyang Li + 2 more2026-02-25💻 cs

MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification

Il paper presenta MUSE, un framework stocastico che migliora la classificazione delle immagini intere di vetrini in contesti few-shot attraverso l'adattamento semantico fine-granulare per campione e l'integrazione di viste testuali multiple generate da LLM, superando così le limitazioni dei metodi visione-linguaggio statici esistenti.

Jiahao Xu, Sheng Huang, Xin Zhang + 3 more2026-02-25💻 cs

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

Il paper introduce SpatiaLQA, un benchmark composto da oltre 9.600 coppie di domande e risposte su 241 scene reali per valutare il ragionamento logico-spaziale nei modelli visione-linguaggio, dimostrando le attuali limitazioni dei modelli più avanzati e proponendo un nuovo metodo di ragionamento assistito da grafi di scena ricorsivi per superare tali sfide.

Yuechen Xie, Xiaoyan Zhang, Yicheng Shan + 6 more2026-02-25🤖 cs.LG

From Isolation to Integration: Building an Adaptive Expert Forest for Pre-Trained Model-based Class-Incremental Learning

Il paper propone SAEF, un metodo che organizza gli adapter in una foresta di esperti strutturata gerarchicamente basata su relazioni semantiche per migliorare la condivisione della conoscenza e raggiungere prestazioni all'avanguardia nell'apprendimento incrementale di classe.

Ruiqi Liu, Boyu Diao, Hangda Liu + 3 more2026-02-25🤖 cs.LG

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Il paper presenta LongVideo-R1, un agente multimodale basato su ragionamento che ottimizza la comprensione di video lunghi a basso costo navigando in modo attivo e selettivo attraverso i contenuti, riducendo così la ridondanza computazionale senza compromettere l'accuratezza.

Jihao Qiu, Lingxi Xie, Xinyue Huo + 2 more2026-02-25💻 cs

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

Il paper presenta LST-SLAM, un innovativo sistema di localizzazione e mappatura simultanea (SLAM) stereo termico progettato per ambienti dinamici su larga scala, che combina apprendimento auto-supervisionato delle caratteristiche termiche, tracciamento del movimento a doppio livello e vincoli ibridi semantico-geometrici per ottenere prestazioni robuste e precise in condizioni di illuminazione e meteo avverse.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs

← Precedente Successivo →