QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

Il paper propone QD-PCQA, un nuovo framework di adattamento di dominio consapevole della qualità che migliora la generalizzazione nella valutazione della qualità dei nuvoli di punti senza riferimento, superando i limiti delle metodologie esistenti grazie a strategie di allineamento delle caratteristiche ponderate per il ranking e di aumento guidato dalla qualità.

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

Il paper presenta KFRA, un agente di ragionamento basato sulla conoscenza che supera i limiti degli approcci chiusi per l'analisi visiva fine-granulare in scenari aperti, integrando rilevamento, recupero web e localizzazione discriminativa in un ciclo di ragionamento interpretable che ha dimostrato prestazioni superiori su un nuovo benchmark dedicato.

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

Questo lavoro propone un framework innovativo per la rilevazione di oggetti piccoli in contesti complessi, che integra un downsampling con ondelette di Haar residue, una modellazione delle relazioni globali e un'attenzione ibrida cross-scala per preservare i dettagli fini e migliorare l'accuratezza della localizzazione, ottenendo risultati superiori rispetto agli stati dell'arte sulla benchmark RGBT-Tiny.

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

Questo articolo presenta un framework di rilevamento degli oggetti subacquei basato su YOLOv10, che integra un modulo di miglioramento adattivo, un meccanismo di attenzione a doppia pooling sequenziale e una nuova funzione di perdita FGIoU per ottenere un'alta precisione e un'efficienza computazionale su dataset come RUOD e DUO.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Il paper propone SPA (Structure-aware Prompt Adaptation), un metodo plug-and-play che migliora l'apprendimento zero-shot composizionale a vocabolario aperto (OV-CZSL) adattando le prompt sfruttando le strutture locali coerenti nello spazio delle embedding per generalizzare dai concetti visti a quelli non visti tramite analogie semantiche.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

DeepScan è un framework privo di addestramento che migliora il ragionamento visivamente fondato nei Large Vision-Language Models attraverso una scansione gerarchica, un rifocalizzazione collaborativa e un ragionamento potenziato dalle evidenze, ottenendo prestazioni superiori in compiti di comprensione visiva fine senza costi aggiuntivi.

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs