cs.CV articoli | Gist.Science

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

Questo articolo presenta un framework di rilevamento degli oggetti subacquei basato su YOLOv10, che integra un modulo di miglioramento adattivo, un meccanismo di attenzione a doppia pooling sequenziale e una nuova funzione di perdita FGIoU per ottenere un'alta precisione e un'efficienza computazionale su dataset come RUOD e DUO.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Vector-Quantized Soft Label Compression for Dataset Distillation

Questo articolo presenta un autoencoder vettoriale quantizzato (VQAE) per comprimere le etichette morbide nella distillazione dei dataset, riducendo drasticamente i costi di archiviazione su larga scala come ImageNet-1K pur mantenendo oltre il 90% delle prestazioni originali.

Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash + 1 more2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Il paper propone SPA (Structure-aware Prompt Adaptation), un metodo plug-and-play che migliora l'apprendimento zero-shot composizionale a vocabolario aperto (OV-CZSL) adattando le prompt sfruttando le strutture locali coerenti nello spazio delle embedding per generalizzare dai concetti visti a quelli non visti tramite analogie semantiche.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Il paper introduce il framework AVAR, che risolve il fenomeno della "Lazy Attention Localization" durante l'inizializzazione a freddo dei modelli multimodali, guidando l'attenzione visiva per ottenere significativi miglioramenti nel ragionamento multimodale senza necessità di riaddestramento.

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

Universal Pansharpening Foundation Model

Il paper presenta FoundPS, un modello fondazionale universale per la pansharpening che supera i limiti dei metodi esistenti grazie a un'architettura innovativa basata su transformer e diffusione latente, offrendo una fusione robusta e agnostica rispetto al sensore validata su un nuovo benchmark globale denominato PSBench.

Hebaixu Wang, Jing Zhang, Haonan Guo + 4 more2026-03-05💻 cs

All-in-One Image Restoration via Causal-Deconfounding Wavelet-Disentangled Prompt Network

Il paper propone CWP-Net, una rete all-in-one per il ripristino delle immagini che utilizza un'analisi causale e la disaccoppiamento delle caratteristiche tramite ondelette per eliminare le correlazioni spurie e le stime distorte dei pattern di degradazione, superando così i limiti delle metodologie attuali.

Bingnan Wang, Bin Qin, Jiangmeng Li + 3 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

DeepScan è un framework privo di addestramento che migliora il ragionamento visivamente fondato nei Large Vision-Language Models attraverso una scansione gerarchica, un rifocalizzazione collaborativa e un ragionamento potenziato dalle evidenze, ottenendo prestazioni superiori in compiti di comprensione visiva fine senza costi aggiuntivi.

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs

Bridging Human Evaluation to Infrared and Visible Image Fusion

Questo paper propone un quadro di rinforzo feedback che, sfruttando il primo dataset su larga scala di valutazioni umane per la fusione di immagini infrarosse e visibili, allinea le prestazioni del modello agli standard estetici umani attraverso un modello di ricompensa e l'ottimizzazione della politica.

Jinyuan Liu, Xingyuan Li, Qingyun Mei + 5 more2026-03-05💻 cs

Yolo-Key-6D: Single Stage Monocular 6D Pose Estimation with Keypoint Enhancements

Il paper presenta Yolo-Key-6D, un framework end-to-end a stadio singolo per la stima della posa 6D monocular che, integrando la regressione dei punti chiave e una rappresentazione continua della rotazione, raggiunge un equilibrio competitivo tra accuratezza e velocità in tempo reale sui benchmark LINEMOD.

Kemal Alperen Çetiner, Hazım Kemal Ekenel2026-03-05💻 cs

UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

Il paper presenta UniSync, un framework unificato che combina strategie di addestramento senza maschere e inferenza basata su maschere per ottenere una sincronizzazione labiale ad alta fedeltà e generalizzabile in scenari complessi, superando i limiti dei metodi attuali e introducendo un nuovo benchmark RealWorld-LipSync.

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

A novel network for classification of cuneiform tablet metadata

Questo articolo presenta una nuova architettura di rete convoluzionale ispirata che classifica efficacemente i metadati delle tavolette cuneiformi integrando informazioni locali e globali dai dati point-cloud, superando le prestazioni dello stato dell'arte Point-BERT nonostante la scarsità di dati annotati.

Frederik Hagelskjær2026-03-05🤖 cs.AI

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Questo lavoro propone un nuovo framework di valutazione unificato e il metodo SURE+ per migliorare l'affidabilità dei classificatori valutando congiuntamente la rilevazione di dati fuori distribuzione e la previsione degli errori, superando i limiti degli approcci tradizionali.

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

Questo articolo propone un'architettura di tracciamento modulare e asincrona (MATA) basata su transformer e filtri di Kalman estesi, corredata da un nuovo protocollo di valutazione e dalla metrica NT2F, dimostrando attraverso esperimenti su piattaforme UAV embedded come tale approccio migliori robustezza e prestazioni in tempo reale rispetto ai metodi esistenti.

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

Il paper presenta FGAesthetics, un nuovo database per la valutazione estetica delle immagini a grana fine, e FGAesQ, un framework innovativo che apprende punteggi discriminativi da ranking relativi, superando i limiti dei modelli esistenti nel distinguere sottili variazioni estetiche.

Zhichao Yang, Jianjie Wang, Zhixianhe Zhang + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Il paper propone un metodo di iniezione esterna di n-grammi (NGI) nei decoder dei transformer per adattare dinamicamente il modello linguistico durante l'inferenza, migliorando significativamente il riconoscimento del testo scritto a mano su domini linguistici diversi senza richiedere un addestramento aggiuntivo su dati target.

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

Il paper introduce DISC, un metodo di mappatura semantica open-set che supera i limiti delle approcci attuali grazie a un'estrazione densa e integrata dei contesti semantici in tempo reale, offrendo prestazioni superiori in termini di accuratezza e scalabilità per la robotica.

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

Il paper presenta CMDR-IAD, un framework unsupervised leggero e flessibile che integra mappatura cross-modale bidirezionale e ricostruzione a doppio ramo per rilevare anomalie industriali in contesti multimodali (2D+3D) e monomodali, ottenendo prestazioni state-of-the-art senza l'uso di memory bank.

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

Questo studio dimostra che l'uso di reti neurali convoluzionali, in particolare DenseNet121, è promettente per il rilevamento automatico e la classificazione delle artefatti iper- e ipointensi nelle immagini di risonanza magnetica mammaria con diffusione ad alto valore b (b=1500 s/mm²), sebbene siano necessarie ulteriori validazioni.

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Spatial Causal Prediction in Video

Questo lavoro introduce il Spatial Causal Prediction (SCP), un nuovo paradigma di task e il relativo benchmark SCP-Bench, per valutare la capacità dei modelli di ragionare su relazioni spaziali e causali non osservabili, rivelando significativi limiti nelle attuali intelligenze artificiali rispetto alle capacità umane.

Yanguang Zhao, Jie Yang, Shengqiong Wu + 9 more2026-03-05💻 cs

RVN-Bench: A Benchmark for Reactive Visual Navigation

Il paper introduce RVN-Bench, un nuovo benchmark collision-aware basato su Habitat 2.0 e scene HM3D ad alta fedeltà, progettato per valutare e addestrare agenti di navigazione visiva reattiva e sicura in ambienti interni complessi e non mappati.

Jaewon Lee, Jaeseok Heo, Gunmin Lee + 3 more2026-03-05🤖 cs.AI

← Precedente Successivo →