cs.CV articoli | Gist.Science

EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

Il paper presenta EvoPrune, un metodo di pruning dei token visivi eseguito durante la fase di codifica nei MLLM che, riducendo i costi computazionali, garantisce un raddoppio della velocità di inferenza con una minima perdita di prestazioni.

Yuhao Chen, Bin Shan, Xin Ye + 1 more2026-03-05🤖 cs.AI

Polyp Segmentation Using Wavelet-Based Cross-Band Integration for Enhanced Boundary Representation

Il paper propone un modello di segmentazione dei polipi che integra rappresentazioni in scala di grigi e RGB attraverso un'interazione coerente nel dominio delle ondelette, sfruttando la maggiore contrasto dei bordi nella scala di grigi per migliorare la precisione nella localizzazione dei confini e superare le limitazioni dei metodi convenzionali basati solo su RGB.

Haesung Oh, Jaesung Lee2026-03-05💻 cs

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

Il paper propone l'ERK-Guid, un nuovo metodo di campionamento per modelli di diffusione che utilizza l'errore locale di troncamento generato dai solutori come segnale di guida per correggere le regioni rigide e migliorare la qualità del campionamento, superando i metodi esistenti su dataset come ImageNet.

Inho Kong, Sojin Lee, Youngjoon Hong + 1 more2026-03-05🤖 cs.AI

MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

Il paper presenta MPFlow, un framework di ricostruzione MRI zero-shot basato su flow matching che, sfruttando una strategia di pre-addestramento auto-supervisionato per allineare le caratteristiche tra diverse modalità, riduce le allucinazioni anatomiche e accelera il campionamento rispetto ai metodi basati su diffusione.

Seunghoi Kim, Chen Jin, Henry F. J. Tregidgo + 2 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

Questo studio identifica e quantifica il "Order-to-Space Bias" (OTS), un pregiudizio sistematico nei modelli di generazione di immagini in cui l'ordine di menzione delle entità nel testo determina erroneamente il layout spaziale, proponendo al contempo un benchmark e strategie di intervento per mitigare tale fenomeno preservando la qualità della generazione.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Glass Segmentation with Fusion of Learned and General Visual Features

Questo articolo presenta una nuova architettura per la segmentazione del vetro che fonde caratteristiche visive generali estratte da un modello fondazionale DINOv3 congelato e caratteristiche specifiche apprese tramite un modello Swin supervisionato, ottenendo risultati all'avanguardia su quattro dataset comuni.

Risto Ojala, Tristan Ellison, Mo Chen2026-03-05💻 cs

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

Il paper propone QD-PCQA, un nuovo framework di adattamento di dominio consapevole della qualità che migliora la generalizzazione nella valutazione della qualità dei nuvoli di punti senza riferimento, superando i limiti delle metodologie esistenti grazie a strategie di allineamento delle caratteristiche ponderate per il ranking e di aumento guidato dalla qualità.

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

Il paper presenta PROSPECT, un agente di navigazione visione-linguaggio unificato e in streaming che combina l'encoding spaziale CUT3R e le caratteristiche semantiche SigLIP con un ramo predittivo latente per raggiungere prestazioni all'avanguardia nella navigazione a lungo raggio e nel deployment robotico reale.

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

Il paper presenta DAGE, un'architettura transformer a doppio flusso che disaccoppia la coerenza globale dai dettagli fini per stimolare geometria e pose di camera ad alta risoluzione da input multi-vista, ottenendo nuovi risultati allo stato dell'arte con costi di inferenza pratici.

Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh + 4 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

Il paper propone WSI-INR, un innovativo framework privo di patch basato su Rappresentazioni Neurali Implicite che modella le immagini interostrato come funzioni continue per ottenere una segmentazione delle lesioni spazialmente coerente e robusta alle variazioni di risoluzione, superando i limiti dei metodi tradizionali a patch.

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

Il paper presenta KFRA, un agente di ragionamento basato sulla conoscenza che supera i limiti degli approcci chiusi per l'analisi visiva fine-granulare in scenari aperti, integrando rilevamento, recupero web e localizzazione discriminativa in un ciclo di ragionamento interpretable che ha dimostrato prestazioni superiori su un nuovo benchmark dedicato.

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving

Il paper presenta DriveMVS, un innovativo framework stereo multi-vista che sfrutta le osservazioni LiDAR come prompt geometrici e un decoder spaziotemporale per ottenere una stima della profondità metrica precisa, coerente nel tempo e generalizzabile, risolvendo le sfide chiave per la percezione nella guida autonoma.

Qihao Sun, Jiarun Liu, Ziqian Ni + 5 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

Questo lavoro propone un framework innovativo per la rilevazione di oggetti piccoli in contesti complessi, che integra un downsampling con ondelette di Haar residue, una modellazione delle relazioni globali e un'attenzione ibrida cross-scala per preservare i dettagli fini e migliorare l'accuratezza della localizzazione, ottenendo risultati superiori rispetto agli stati dell'arte sulla benchmark RGBT-Tiny.

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

Il paper presenta TAP, un framework di accelerazione senza addestramento per i modelli di diffusione che, sfruttando una strategia di "sonda e selezione" adattiva a livello di token, riduce significativamente i tempi di inferenza mantenendo la qualità generativa.

Haowei Zhu, Tingxuan Huang, Xing Wang + 7 more2026-03-05🤖 cs.LG

When and Where to Reset Matters for Long-Term Test-Time Adaptation

Questo paper propone un approccio di adattamento durante il test a lungo termine che utilizza un meccanismo di reset adattivo e selettivo, combinato con un regolarizzatore consapevole dell'importanza, per prevenire il collasso del modello e preservare la conoscenza acquisita senza ricorrere a reset periodici dannosi.

Taejun Lim, Joong-Won Hwang, Kibok Lee2026-03-05🤖 cs.AI

Separators in Enhancing Autoregressive Pretraining for Vision Mamba

Il paper introduce STAR, un metodo innovativo di pre-addestramento autoregressivo per Vision Mamba che utilizza separatori per estendere significativamente la lunghezza delle sequenze in ingresso, ottenendo prestazioni competitive come dimostrato dalla precisione del 83,5% su ImageNet-1k.

Hanpeng Liu, Zidan Wang, Shuoxi Zhang + 2 more2026-03-05🤖 cs.AI

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

Questo articolo presenta un framework di rilevamento degli oggetti subacquei basato su YOLOv10, che integra un modulo di miglioramento adattivo, un meccanismo di attenzione a doppia pooling sequenziale e una nuova funzione di perdita FGIoU per ottenere un'alta precisione e un'efficienza computazionale su dataset come RUOD e DUO.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Vector-Quantized Soft Label Compression for Dataset Distillation

Questo articolo presenta un autoencoder vettoriale quantizzato (VQAE) per comprimere le etichette morbide nella distillazione dei dataset, riducendo drasticamente i costi di archiviazione su larga scala come ImageNet-1K pur mantenendo oltre il 90% delle prestazioni originali.

Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash + 1 more2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Il paper propone SPA (Structure-aware Prompt Adaptation), un metodo plug-and-play che migliora l'apprendimento zero-shot composizionale a vocabolario aperto (OV-CZSL) adattando le prompt sfruttando le strutture locali coerenti nello spazio delle embedding per generalizzare dai concetti visti a quelli non visti tramite analogie semantiche.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Il paper introduce il framework AVAR, che risolve il fenomeno della "Lazy Attention Localization" durante l'inizializzazione a freddo dei modelli multimodali, guidando l'attenzione visiva per ottenere significativi miglioramenti nel ragionamento multimodale senza necessità di riaddestramento.

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

← Precedente Successivo →