cs.CV articoli | Gist.Science

Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction

Il paper presenta GPOcc, un framework che generalizza i prior geometrici visivi per la previsione di occupazione 3D monocular e in streaming, estendendo i punti superficiali verso l'interno lungo i raggi della camera per generare primitive Gaussiane volumetriche e ottenendo significativi miglioramenti di accuratezza e velocità rispetto allo stato dell'arte.

Changqing Zhou, Yueru Luo, Changhao Chen2026-02-26💻 cs

MultiAnimate: Pose-Guided Image Animation Made Extensible

Il paper presenta MultiAnimate, un framework basato su Diffusion Transformers che risolve i problemi di identità e occlusione nell'animazione di immagini umane multi-persona, permettendo la generazione realistica di video con un numero di personaggi superiore a quello del dataset di addestramento.

Yingcheng Hu, Haowen Gong, Chuanguang Yang + 3 more2026-02-26💻 cs

SEF-MAP: Subspace-Decomposed Expert Fusion for Robust Multimodal HD Map Prediction

Il paper propone SEF-MAP, un framework innovativo che migliora la robustezza della previsione di mappe HD multimodali per la guida autonoma disaccoppiando le caratteristiche in sottospazi semantici dedicati e utilizzando un meccanismo di gating basato sull'incertezza per adattarsi dinamicamente a condizioni degradate, ottenendo risultati allo stato dell'arte sui benchmark nuScenes e Argoverse2.

Haoxiang Fu, Lingfeng Zhang, Hao Li + 7 more2026-02-26💻 cs

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

Questo lavoro rivela una vulnerabilità fondamentale nei sistemi di filigrana semantica per immagini generative, dimostrando che un attacco guidato da modelli linguistici (LLM) chiamato CSI può manipolare le semantica in modo coerente per eludere i rilevatori senza compromettere la coerenza globale dell'immagine.

Zheng Gao, Xiaoyu Li, Zhicheng Bao + 2 more2026-02-26🤖 cs.LG

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

Questo studio rivela che gli embedding condizionali nei Diffusion Transformers presentano un collo di bottiglia semantico caratterizzato da un'elevata ridondanza angolare e da una concentrazione del segnale informativo in poche dimensioni, permettendo di ridurre drasticamente lo spazio degli embedding senza compromettere la qualità della generazione.

Trung X. Pham, Kang Zhang, Ji Woo Hong + 1 more2026-02-26💻 cs

Virtual Biopsy for Intracranial Tumors Diagnosis on MRI

Questo paper presenta il primo benchmark pubblico ICT-MRI e un framework di "biopsia virtuale" basato su intelligenza artificiale che, superando le sfide della scarsità di dati e della localizzazione di lesioni piccole, raggiunge un'accuratezza diagnostica superiore al 90% per la classificazione non invasiva dei tumori intracranici tramite risonanza magnetica.

Xinzhe Luo, Shuai Shao, Yan Wang + 3 more2026-02-26🤖 cs.AI

UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling

Il paper presenta UniHand, un framework unificato basato sulla diffusione che integra stime e generazione di movimenti delle mani 4D in un'unica sintesi condizionale, superando le limitazioni dei metodi separati grazie a un'architettura in grado di elaborare segnali eterogenei e garantire prestazioni robuste anche in caso di occlusioni o dati temporali incompleti.

Zhihao Sun, Tong Wu, Ruirui Tu + 2 more2026-02-26💻 cs

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

Il paper propone SC-VLA, un modello Vision-Language-Action auto-correttivo che migliora le prestazioni robotiche nel mondo reale e in simulazione integrando un'immaginazione del mondo sparsa e un raffinamento online delle azioni per guidare intrinsecamente il perfezionamento delle traiettorie senza dipendere da segnali di ricompensa esterni.

Chenyv Liu, Wentao Tan, Lei Zhu + 4 more2026-02-26🤖 cs.AI

Axial-Centric Cross-Plane Attention for 3D Medical Image Classification

Il paper propone un'architettura di attenzione incrociata tra piani centrata sull'asse assiale, che integra il modello fondazionale MedDINOv3 e meccanismi di fusione direzionale per allineare l'analisi delle immagini mediche 3D al flusso di lavoro clinico, ottenendo prestazioni superiori su sei dataset del benchmark MedMNIST3D.

Doyoung Park, Jinsoo Kim, Lohendran Baskaran2026-02-26💻 cs

Lie Flow: Video Dynamic Fields Modeling and Predicting with Lie Algebra as Geometric Physics Principle

Il paper presenta LieFlow, un framework di rappresentazione radiante dinamica che modella e prevede i campi di movimento 4D utilizzando l'algebra di Lie e il gruppo SE(3) per garantire coerenza geometrica e fisica superiore rispetto ai metodi basati su NeRF.

Weidong Qiao, Wangmeng Zuo, Hui Li2026-02-26💻 cs

Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis

Il paper propone la VCC-Net, una rete cooperativa guidata dalla cognizione visiva che integra le tracce di ricerca oculare dei radiologi con l'inferenza del modello per migliorare l'accuratezza diagnostica, l'interpretabilità e l'allineamento con il flusso di lavoro clinico nella diagnosi di radiografie toraciche.

Shaoxuan Wu, Jingkun Chen, Chong Ma + 3 more2026-02-26🤖 cs.AI

HybridINR-PCGC: Hybrid Lossless Point Cloud Geometry Compression Bridging Pretrained Model and Implicit Neural Representation

Il paper propone HybridINR-PCGC, un nuovo framework ibrido per la compressione geometrica lossless delle nuvole di punti che combina modelli preaddestrati e rappresentazioni neurali implicite per superare le dipendenze dai dati e i costi computazionali delle metodologie esistenti, ottenendo significativi miglioramenti nel tasso di compressione e nell'efficienza.

Wenjie Huang, Qi Yang, Shuting Xia + 3 more2026-02-26💻 cs

Space-Time Forecasting of Dynamic Scenes with Motion-aware Gaussian Grouping

Il paper presenta MoGaF, un nuovo framework basato su 4D Gaussian Splatting che utilizza il raggruppamento e l'ottimizzazione consapevoli del movimento per generare previsioni a lungo termine di scene dinamiche coerenti e fisicamente plausibili, superando gli attuali metodi di riferimento.

Junmyeong Lee, Hoseung Choi, Minsu Cho2026-02-26💻 cs

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

Il paper introduce E-comIQ-ZH, un nuovo framework, dataset e modello di valutazione specializzati per l'analisi automatica e allineata al giudizio umano dei poster di e-commerce cinesi, affrontando le sfide specifiche legate alla complessità testuale e alle esigenze funzionali del settore.

Meiqi Sun, Mingyu Li, Junxiong Zhu2026-02-26💻 cs

SF3D-RGB: Scene Flow Estimation from Monocular Camera and Sparse LiDAR

Il paper presenta SF3D-RGB, un'architettura di deep learning end-to-end che combina immagini monocromatiche 2D e nuvole di punti LiDAR sparse per stimare il flusso di scena con maggiore accuratezza ed efficienza rispetto ai metodi a singola modalità o ad altre tecniche di fusione.

Rajai Alhimdiat, Ramy Battrawy, René Schuster + 2 more2026-02-26💻 cs

Brain Tumor Segmentation with Special Emphasis on the Non-Enhancing Brain Tumor Compartment

Questo lavoro presenta un'architettura di deep learning basata su U-Net per la segmentazione dei tumori cerebrali, con un focus particolare sul compartimento non-enhancing, spesso trascurato nelle sfide recenti ma cruciale per la prognosi e la previsione della crescita tumorale.

T. Schaffer, A. Brawanski, S. Wein + 2 more2026-02-26🤖 cs.LG

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

Il paper propone un metodo senza addestramento chiamato "Dynamic Multimodal Activation Steering" che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala intervenendo dinamicamente su specifici sottogruppi di attention heads durante l'inferenza, selezionando vettori di steering contestualmente rilevanti basati sulla similarità semantica.

Jianghao Yin, Qin Chen, Kedi Chen + 3 more2026-02-26🤖 cs.AI

SurGo-R1: Benchmarking and Modeling Contextual Reasoning for Operative Zone in Surgical Video

Il paper introduce SurGo-R1, un modello basato su RLHF e un nuovo benchmark per il ragionamento contestuale nelle zone operative della chirurgia minimamente invasiva, che supera significativamente le capacità dei modelli visivo-linguistici esistenti identificando prima la fase chirurgica e poi determinando le zone sicure con alta precisione.

Guanyi Qin, Xiaozhen Wang, Zhu Zhuo + 7 more2026-02-26🤖 cs.AI

Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries

Questo lavoro estende un metodo di ricostruzione basato su modelli per l'adattamento spaziale della sparsità nei dizionari convoluzionali, migliorando l'invarianza alle permutazioni dei filtri e la flessibilità di inferenza, e dimostra una maggiore robustezza rispetto ai metodi deep learning puri nella risonanza magnetica a basso campo, specialmente di fronte a distribuzioni di dati diverse da quelle di addestramento.

Joshua Schulz, David Schote, Christoph Kolbitsch + 2 more2026-02-26⚡ eess

Assessing airborne laser scanning and aerial photogrammetry for deep learning-based stand delineation

Lo studio dimostra che un framework di deep learning basato su U-Net per la delimitazione dei popolamenti forestali raggiunge prestazioni comparabili utilizzando sia modelli di altezza della chioma derivati da laser scanning aereo (ALS) che da fotogrammetria aerea (DAP), confermando che quest'ultima, pur con dettagli strutturali ridotti, può sostituire efficacemente l'ALS e che l'aggiunta di un modello digitale del terreno non migliora ulteriormente i risultati.

Håkon Næss Sandum, Hans Ole Ørka, Oliver Tomic + 1 more2026-02-26💻 cs

← Precedente Successivo →