cs.CV articoli | Gist.Science

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

Il paper propone PulseFocus, un metodo di inferenza senza addestramento che risolve il problema delle distrazioni attentive e dei bias posizionali nei modelli VLM a ragionamento multi-immagine, ottenendo miglioramenti significativi su benchmark come BLINK e MuirBench.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Questo studio presenta una valutazione sistematica di tre strategie di compressione delle reti neurali (pruning, quantizzazione e distillazione della conoscenza) per la classificazione di immagini iperspettrali, dimostrando che è possibile ridurre significativamente le dimensioni e i costi computazionali dei modelli mantenendo prestazioni competitive per le applicazioni di telerilevamento.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Questo studio dimostra che, sebbene i modelli linguistici multimodali possano essere adattati per il rilevamento di anomalie video tramite istruzioni specifiche, soffrono di un forte bias conservativo in modalità zero-shot che ne limita l'utilità pratica a causa di una scarsa capacità di recupero (recall) in ambienti reali.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

FOZO: Forward-Only Zeroth-Order Prompt Optimization for Test-Time Adaptation

Il paper propone FOZO, un metodo di ottimizzazione del prompt senza backpropagation e a ordine zero che, sfruttando una scala di perturbazione decrescente e obiettivi basati su statistiche delle feature ed entropia, garantisce un'adattabilità test-time efficiente e stabile su dispositivi con risorse limitate, superando le prestazioni dei metodi basati su gradienti e di approcci forward-only esistenti.

Xingyu Wang, Tao Wang2026-03-06💻 cs

Toward Real-world Infrared Image Super-Resolution: A Unified Autoregressive Framework and Benchmark Dataset

Il paper propone Real-IISR, un framework autoregressivo unificato e un nuovo dataset FLIR-IISR per la super-risoluzione di immagini a infrarossi in scenari reali, affrontando le degradazioni ottiche e di sensing specifiche attraverso una guida termico-strutturale e una coerenza fisica dell'ordine termico.

Yang Zou, Jun Ma, Zhidong Jiao + 3 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Questo commento paesaggistico valuta la famiglia GPT-5 come ragionatore clinico multimodale, evidenziando significativi progressi nel ragionamento testuale e nella sintesi multimodale rispetto a GPT-4o, pur rilevando che i modelli generalisti non sostituiscono ancora i sistemi specializzati in compiti critici di percezione come la neuroradiologia e la mammografia.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

Evaluating and Correcting Human Annotation Bias in Dynamic Micro-Expression Recognition

Questo articolo presenta la strategia GAMDSS, un'architettura innovativa che migliora il riconoscimento delle microespressioni dinamiche attraverso la rielaborazione automatica dei fotogrammi chiave, riducendo così i bias di annotazione umana e le incertezze nelle dataset multiculturali senza aumentare la complessità parametrica dei modelli.

Feng Liu, Bingyu Nan, Xuezhong Qian + 1 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Il paper propone DSA-SRGS, il primo framework di gaussian splatting a super-risoluzione per la ricostruzione dinamica di angiografie digitali (DSA) da viste sparse, che integra un modulo di apprendimento della texture multi-fiducia e una densificazione radiativa sub-pixel per recuperare dettagli vascolari fini eliminando artefatti di sfocatura e aliasing.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

Il paper presenta MADCrowner, un framework di generazione di mesh dentali consapevole del margine che combina deformazione di template basata su contesto anatomico e segmentazione del margine cervicale per superare le limitazioni dei metodi esistenti, garantendo maggiore accuratezza geometrica e fattibilità clinica.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Questo documento presenta il framework Privacy-Aware Camera 2.0, che risolve il paradosso tra sicurezza e privacy negli ambienti sensibili trasformando le immagini grezze in vettori di caratteristiche astratti e irreversibili tramite un'architettura edge-cloud, permettendo così il riconoscimento comportamentale e la ricostruzione semantica senza esporre i dati visivi originali.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

Il paper propone RMK RetinaNet, un nuovo modello per il rilevamento di oggetti orientati in immagini di telerilevamento che risolve le limitazioni attuali integrando blocchi multi-kernel, meccanismi di attenzione contestuale, percorsi bottom-up e una codifica degli angoli di Eulero per migliorare l'estrazione delle caratteristiche e la regressione degli angoli.

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

Il paper introduce "LAW & ORDER", una coppia di adattatori di rete che utilizzano la ponderazione spaziale adattiva per migliorare la sintesi controllata e la segmentazione di immagini mediche, risolvendo lo squilibrio spaziale tra lesioni e sfondi e ottenendo significativi guadagni nelle prestazioni sia generative che discriminative.

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs

Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper

Questa revisione valuta i metodi tradizionali e l'apprendimento profondo per la segmentazione e la classificazione dei gliomi cerebrali, concludendo che le architetture basate su reti neurali convoluzionali superano le tecniche tradizionali nel trasformare le immagini in dati analizzabili per una pianificazione terapeutica precisa.

Kiranmayee Janardhan, Vinay Martin DSa Prabhu, T. Christy Bobby2026-03-06💻 cs

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Il paper presenta MASQuant, un nuovo framework di quantizzazione post-allenamento che risolve le sfide di allineamento e invarianza computazionale nei modelli linguistici multimodali attraverso una tecnica di smoothing consapevole della modalità e una compensazione incrociata basata sulla decomposizione SVD.

Lulu Hu, Wenhu Xiao, Xin Chen + 4 more2026-03-06💻 cs

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

Il paper propone la Ricostruzione Contrastiva Diffusiva (DCR), un metodo che integra segnali contrastivi derivati dalle immagini ricostruite nel processo di diffusione per bilanciare la capacità discriminativa e la percezione dei dettagli, superando così i limiti degli encoder visivi CLIP.

Boyu Han, Qianqian Xu, Shilong Bao + 4 more2026-03-06💻 cs

Meta-D: Metadata-Aware Architectures for Brain Tumor Analysis and Missing-Modality Segmentation

Il paper presenta Meta-D, un'architettura che sfrutta i metadati categorici degli scanner per guidare l'estrazione delle caratteristiche, migliorando significativamente sia la rilevazione dei tumori cerebrali che la segmentazione in presenza di modalità mancanti.

SangHyuk Kim, Daniel Haehn, Sumientra Rampersad2026-03-06💻 cs

Revisiting Shape from Polarization in the Era of Vision Foundation Models

Questo lavoro dimostra che, superando le lacune dei dataset esistenti e integrando prior DINOv3, un modello leggero addestrato su un piccolo dataset di dati polarimetrici realistici può superare sia i metodi SfP precedenti sia i modelli foundation basati solo su RGB per la stima delle normali superficiali, offrendo un'efficienza superiore in termini di dati e parametri.

Chenhao Li, Taishi Ono, Takeshi Uemori + 1 more2026-03-06💻 cs

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

Il paper propone il framework CAD (Class-specific Augmentation based Disentanglement), una soluzione innovativa che mitiga l'intreccio delle istanze nell'apprendimento da etichette parziali dipendenti dall'istanza regolando le caratteristiche intra-classe e applicando penalità inter-classe per migliorare la chiarezza dei confini tra le classi.

Rui Zhao, Bin Shi, Kai Sun + 1 more2026-03-06🤖 cs.LG

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

Il paper propone SADCA, un attacco avversario semantico-aumentato e dinamicamente contrastivo che migliora significativamente la trasferibilità degli esempi ostili nei modelli visione-linguaggio rompendo progressivamente l'allineamento cross-modale attraverso interazioni guidate semanticamente.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

Il paper propone MPCAttack, un nuovo framework di attacco avversario collaborativo multi-paradigma che migliora la trasferibilità degli esempi avversari contro i modelli linguistici multimodali (MLLM) ottimizzando congiuntamente le rappresentazioni semantiche visive e testuali per superare i limiti dei metodi esistenti.

Yuanbo Li, Tianyang Xu, Cong Hu + 3 more2026-03-06💻 cs

← Precedente Successivo →