cs.CV articoli | Gist.Science

Order Is Not Layout: Order-to-Space Bias in Image Generation

Questo studio identifica e quantifica il "Order-to-Space Bias" (OTS), un pregiudizio sistematico nei modelli di generazione di immagini in cui l'ordine di menzione delle entità nel testo determina erroneamente il layout spaziale, proponendo al contempo un benchmark e strategie di intervento per mitigare tale fenomeno preservando la qualità della generazione.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Glass Segmentation with Fusion of Learned and General Visual Features

Questo articolo presenta una nuova architettura per la segmentazione del vetro che fonde caratteristiche visive generali estratte da un modello fondazionale DINOv3 congelato e caratteristiche specifiche apprese tramite un modello Swin supervisionato, ottenendo risultati all'avanguardia su quattro dataset comuni.

Risto Ojala, Tristan Ellison, Mo Chen2026-03-05💻 cs

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

Il paper propone QD-PCQA, un nuovo framework di adattamento di dominio consapevole della qualità che migliora la generalizzazione nella valutazione della qualità dei nuvoli di punti senza riferimento, superando i limiti delle metodologie esistenti grazie a strategie di allineamento delle caratteristiche ponderate per il ranking e di aumento guidato dalla qualità.

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

Il paper presenta PROSPECT, un agente di navigazione visione-linguaggio unificato e in streaming che combina l'encoding spaziale CUT3R e le caratteristiche semantiche SigLIP con un ramo predittivo latente per raggiungere prestazioni all'avanguardia nella navigazione a lungo raggio e nel deployment robotico reale.

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

Il paper presenta DAGE, un'architettura transformer a doppio flusso che disaccoppia la coerenza globale dai dettagli fini per stimolare geometria e pose di camera ad alta risoluzione da input multi-vista, ottenendo nuovi risultati allo stato dell'arte con costi di inferenza pratici.

Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh + 4 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

Il paper propone WSI-INR, un innovativo framework privo di patch basato su Rappresentazioni Neurali Implicite che modella le immagini interostrato come funzioni continue per ottenere una segmentazione delle lesioni spazialmente coerente e robusta alle variazioni di risoluzione, superando i limiti dei metodi tradizionali a patch.

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

Il paper presenta KFRA, un agente di ragionamento basato sulla conoscenza che supera i limiti degli approcci chiusi per l'analisi visiva fine-granulare in scenari aperti, integrando rilevamento, recupero web e localizzazione discriminativa in un ciclo di ragionamento interpretable che ha dimostrato prestazioni superiori su un nuovo benchmark dedicato.

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving

Il paper presenta DriveMVS, un innovativo framework stereo multi-vista che sfrutta le osservazioni LiDAR come prompt geometrici e un decoder spaziotemporale per ottenere una stima della profondità metrica precisa, coerente nel tempo e generalizzabile, risolvendo le sfide chiave per la percezione nella guida autonoma.

Qihao Sun, Jiarun Liu, Ziqian Ni + 5 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

Questo lavoro propone un framework innovativo per la rilevazione di oggetti piccoli in contesti complessi, che integra un downsampling con ondelette di Haar residue, una modellazione delle relazioni globali e un'attenzione ibrida cross-scala per preservare i dettagli fini e migliorare l'accuratezza della localizzazione, ottenendo risultati superiori rispetto agli stati dell'arte sulla benchmark RGBT-Tiny.

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

Il paper presenta TAP, un framework di accelerazione senza addestramento per i modelli di diffusione che, sfruttando una strategia di "sonda e selezione" adattiva a livello di token, riduce significativamente i tempi di inferenza mantenendo la qualità generativa.

Haowei Zhu, Tingxuan Huang, Xing Wang + 7 more2026-03-05🤖 cs.LG

When and Where to Reset Matters for Long-Term Test-Time Adaptation

Questo paper propone un approccio di adattamento durante il test a lungo termine che utilizza un meccanismo di reset adattivo e selettivo, combinato con un regolarizzatore consapevole dell'importanza, per prevenire il collasso del modello e preservare la conoscenza acquisita senza ricorrere a reset periodici dannosi.

Taejun Lim, Joong-Won Hwang, Kibok Lee2026-03-05🤖 cs.AI

Separators in Enhancing Autoregressive Pretraining for Vision Mamba

Il paper introduce STAR, un metodo innovativo di pre-addestramento autoregressivo per Vision Mamba che utilizza separatori per estendere significativamente la lunghezza delle sequenze in ingresso, ottenendo prestazioni competitive come dimostrato dalla precisione del 83,5% su ImageNet-1k.

Hanpeng Liu, Zidan Wang, Shuoxi Zhang + 2 more2026-03-05🤖 cs.AI

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

Questo articolo presenta un framework di rilevamento degli oggetti subacquei basato su YOLOv10, che integra un modulo di miglioramento adattivo, un meccanismo di attenzione a doppia pooling sequenziale e una nuova funzione di perdita FGIoU per ottenere un'alta precisione e un'efficienza computazionale su dataset come RUOD e DUO.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Vector-Quantized Soft Label Compression for Dataset Distillation

Questo articolo presenta un autoencoder vettoriale quantizzato (VQAE) per comprimere le etichette morbide nella distillazione dei dataset, riducendo drasticamente i costi di archiviazione su larga scala come ImageNet-1K pur mantenendo oltre il 90% delle prestazioni originali.

Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash + 1 more2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Il paper propone SPA (Structure-aware Prompt Adaptation), un metodo plug-and-play che migliora l'apprendimento zero-shot composizionale a vocabolario aperto (OV-CZSL) adattando le prompt sfruttando le strutture locali coerenti nello spazio delle embedding per generalizzare dai concetti visti a quelli non visti tramite analogie semantiche.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Il paper introduce il framework AVAR, che risolve il fenomeno della "Lazy Attention Localization" durante l'inizializzazione a freddo dei modelli multimodali, guidando l'attenzione visiva per ottenere significativi miglioramenti nel ragionamento multimodale senza necessità di riaddestramento.

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

Universal Pansharpening Foundation Model

Il paper presenta FoundPS, un modello fondazionale universale per la pansharpening che supera i limiti dei metodi esistenti grazie a un'architettura innovativa basata su transformer e diffusione latente, offrendo una fusione robusta e agnostica rispetto al sensore validata su un nuovo benchmark globale denominato PSBench.

Hebaixu Wang, Jing Zhang, Haonan Guo + 4 more2026-03-05💻 cs

All-in-One Image Restoration via Causal-Deconfounding Wavelet-Disentangled Prompt Network

Il paper propone CWP-Net, una rete all-in-one per il ripristino delle immagini che utilizza un'analisi causale e la disaccoppiamento delle caratteristiche tramite ondelette per eliminare le correlazioni spurie e le stime distorte dei pattern di degradazione, superando così i limiti delle metodologie attuali.

Bingnan Wang, Bin Qin, Jiangmeng Li + 3 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

DeepScan è un framework privo di addestramento che migliora il ragionamento visivamente fondato nei Large Vision-Language Models attraverso una scansione gerarchica, un rifocalizzazione collaborativa e un ragionamento potenziato dalle evidenze, ottenendo prestazioni superiori in compiti di comprensione visiva fine senza costi aggiuntivi.

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs

Bridging Human Evaluation to Infrared and Visible Image Fusion

Questo paper propone un quadro di rinforzo feedback che, sfruttando il primo dataset su larga scala di valutazioni umane per la fusione di immagini infrarosse e visibili, allinea le prestazioni del modello agli standard estetici umani attraverso un modello di ricompensa e l'ottimizzazione della politica.

Jinyuan Liu, Xingyuan Li, Qingyun Mei + 5 more2026-03-05💻 cs

← Precedente Successivo →