cs.CV articoli | Gist.Science

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Questo studio propone un nuovo approccio all'apprendimento per rinforzo per la generazione di referti radiologici che, combinando una strategia di campionamento basata sulla diversità diagnostica e un'ottimizzazione della politica ponderata sui token diagnostici (DiTPO), raggiunge prestazioni all'avanguardia con una frazione significativa dei dati di addestramento rispetto ai metodi esistenti.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

Il paper propone la Volumetric Directional Diffusion (VDD), un modello che risolve il compromesso tra fedeltà e diversità nella segmentazione di lesioni mediche ambigue ancorando il processo generativo a un consenso anatomico deterministico, permettendo così di quantificare l'incertezza in modo sicuro senza compromettere la coerenza strutturale.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Il paper propone DQE-CIR, un metodo per il recupero di immagini composte che migliora la discriminatività delle query attraverso pesi attributivi apprendibili e un campionamento negativo relativo al target, superando i limiti dei framework contrastivi tradizionali.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

Questo lavoro presenta un nuovo dataset curato, un metodo innovativo di ground truth basato sulle impronte visive e un benchmark di riconoscimento dei luoghi visivi per affrontare le sfide della localizzazione visiva a lungo termine in ambienti bentonici dinamici.

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models

Questo lavoro introduce MELT, un attacco backdoor leggero per modelli di diffusione multi-encoder come Stable Diffusion 3, che dimostra come sia possibile comprometterne l'integrità addestrando meno dello 0,2% dei parametri degli encoder testuali congelati.

Ziyuan Chen, Yujin Jeong, Tobias Braun + 1 more2026-03-05🤖 cs.LG

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

Lo studio dimostra che, nell'analisi istopatologica a livello cellulare con patch estremamente piccole, le architetture specifiche addestrate su grandi volumi di dati superano in accuratezza ed efficienza i modelli fondazionali, i quali offrono invece vantaggi limitati e non garantiscono una maggiore robustezza agli artefatti di sfocatura.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

Il paper presenta EgoPoseFormer v2, un modello transformer basato su un sistema di auto-labeling semi-supervisionato che risolve le sfide della stima del movimento umano in prima persona per AR/VR, ottenendo prestazioni superiori e una maggiore coerenza temporale rispetto agli stati dell'arte attuali.

Zhenyu Li, Sai Kumar Dwivedi, Filip Maric + 11 more2026-03-05💻 cs

CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

Il paper propone un framework visione-linguaggio basato su CLIP per la fenotipizzazione vegetale multi-vista che, aggregando le viste rotazionali e condizionando le features visive su priors testuali, migliora significativamente l'accuratezza nella stima dell'età e del numero di foglie rispetto ai metodi esistenti.

Simon Warmers, Muhammad Zawish, Fayaz Ali Dharejo + 2 more2026-03-05💻 cs

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

Questo paper propone un curatore di fotogrammi a doppio criterio che sfrutta la stabilità dello sguardo e la novità della pupilla per selezionare in modo efficiente, senza inferenza di modelli, i fotogrammi più rilevanti dai flussi video egocentrici, massimizzando le prestazioni di apprendimento pur riducendo drasticamente i requisiti di archiviazione e batteria.

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish2026-03-05💻 cs

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Il paper presenta HPENet, una serie di reti MLP efficienti per l'elaborazione di nuvole di punti che, integrando un encoding posizionale ad alta dimensionalità e operazioni non-locali all'interno di una nuova visione di astrazione e raffinamento, supera le prestazioni di modelli esistenti come PointNeXt riducendo drasticamente il costo computazionale.

Yanmei Zou, Hongshan Yu, Yaonan Wang + 4 more2026-03-05🤖 cs.AI

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Lo studio dimostra che la prevedibilità delle caratteristiche demografiche nelle risonanze magnetiche cerebrali deriva principalmente dalla variazione anatomica piuttosto che dal contrasto di acquisizione, evidenziando la necessità di strategie di mitigazione del bias che distinguano queste due fonti per garantire una generalizzazione robusta.

Mehmet Yigit Avci, Akshit Achara, Andrew King + 1 more2026-03-05🤖 cs.AI

Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

Il paper presenta Any2Any, un framework unificato basato su diffusione latente che, supportato dal nuovo dataset RST-1M, risolve il problema della traduzione arbitraria tra modalità di telerilevamento superando i limiti di complessità e generalizzazione dei metodi esistenti.

Haoyang Chen, Jing Zhang, Hebaixu Wang + 7 more2026-03-05💻 cs

TextBoost: Boosting Scene Text Fidelity in Ultra-low Bitrate Image Compression

Il paper presenta TextBoost, un metodo che migliora la fedeltà del testo nelle immagini compressi a bitrate ultra-basso trasmettendo informazioni testuali ausiliarie estratte via OCR per guidare il decoder, ottenendo un riconoscimento del testo significativamente migliore senza compromettere la qualità globale dell'immagine.

Bingxin Wang, Yuan Lan, Zhaoyi Sun + 2 more2026-03-05💻 cs

A Baseline Study and Benchmark for Few-Shot Open-Set Action Recognition with Feature Residual Discrimination

Questo studio introduce un nuovo benchmark e un metodo basato su un discriminatore di residui delle caratteristiche (FR-Disc) per il riconoscimento delle azioni in scenari open-set a pochi esempi, ottenendo risultati all'avanguardia nel rifiutare azioni sconosciute senza compromettere l'accuratezza su quelle note.

Stefano Berti, Giulia Pasquale, Lorenzo Natale2026-03-05💻 cs

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Il paper presenta Crab⁺, un modello unificato e scalabile per la comprensione audio-visiva che risolve il problema del trasferimento negativo attraverso il dataset AV-UIE v2 e l'architettura I-LoRA, permettendo un apprendimento multi-task che supera le prestazioni dei modelli specializzati in quasi l'88% dei casi.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

Il paper presenta un framework di regolazione dell'attenzione a tempo di inferenza che, integrando maschere anatomiche e correzioni latenti guidate dalla patologia, genera immagini sintetiche di radiografie toraciche controfattuali con maggiore coerenza strutturale e localizzazione precisa delle lesioni.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

Questo articolo propone HBRB-BoW, un algoritmo di addestramento lessicale gerarchico che integra flussi di valori reali per preservare l'integrità delle informazioni descrittive e migliorare le prestazioni di loop closing e relocalizzazione in ORB-SLAM, superando le limitazioni di precisione delle tradizionali tecniche di raggruppamento binario.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Questo articolo presenta il LISTA-Transformer, un modello innovativo che integra la codifica sparsa basata sull'algoritmo LISTA con il meccanismo di attenzione del Transformer per migliorare l'estrazione di caratteristiche locali e globali nei segnali di vibrazione, ottenendo un tasso di riconoscimento dei guasti del 98,5% sul dataset CWRU.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

Questo studio introduce un framework di addestramento aumentato basato su degradazioni artificiali che, applicato selettivamente a un sottoinsieme di individui, migliora significativamente la robustezza e l'accuratezza del re-identificazione individuale degli animali selvatici in condizioni di immagine degradate, fornendo al contempo nuovi benchmark e risorse open source per la comunità scientifica.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

Il paper introduce PlaneCycle, un operatore senza addestramento e senza adattatori che permette di trasformare modelli fondazione 2D preaddestrati in reti 3D riutilizzando il backbone originale attraverso una distribuzione ciclica dell'aggregazione spaziale, ottenendo prestazioni competitive su compiti di classificazione e segmentazione 3D senza modifiche strutturali.

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

← Precedente Successivo →

cs.CV