Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

Questo articolo presenta un framework di rilevamento degli oggetti subacquei basato su YOLOv10, che integra un modulo di miglioramento adattivo, un meccanismo di attenzione a doppia pooling sequenziale e una nuova funzione di perdita FGIoU per ottenere un'alta precisione e un'efficienza computazionale su dataset come RUOD e DUO.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Il paper propone SPA (Structure-aware Prompt Adaptation), un metodo plug-and-play che migliora l'apprendimento zero-shot composizionale a vocabolario aperto (OV-CZSL) adattando le prompt sfruttando le strutture locali coerenti nello spazio delle embedding per generalizzare dai concetti visti a quelli non visti tramite analogie semantiche.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

DeepScan è un framework privo di addestramento che migliora il ragionamento visivamente fondato nei Large Vision-Language Models attraverso una scansione gerarchica, un rifocalizzazione collaborativa e un ragionamento potenziato dalle evidenze, ottenendo prestazioni superiori in compiti di comprensione visiva fine senza costi aggiuntivi.

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

Questo articolo propone un'architettura di tracciamento modulare e asincrona (MATA) basata su transformer e filtri di Kalman estesi, corredata da un nuovo protocollo di valutazione e dalla metrica NT2F, dimostrando attraverso esperimenti su piattaforme UAV embedded come tale approccio migliori robustezza e prestazioni in tempo reale rispetto ai metodi esistenti.

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Il paper propone un metodo di iniezione esterna di n-grammi (NGI) nei decoder dei transformer per adattare dinamicamente il modello linguistico durante l'inferenza, migliorando significativamente il riconoscimento del testo scritto a mano su domini linguistici diversi senza richiedere un addestramento aggiuntivo su dati target.

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

Questo studio dimostra che l'uso di reti neurali convoluzionali, in particolare DenseNet121, è promettente per il rilevamento automatico e la classificazione delle artefatti iper- e ipointensi nelle immagini di risonanza magnetica mammaria con diffusione ad alto valore b (b=1500 s/mm²), sebbene siano necessarie ulteriori validazioni.

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs