cs.CV articoli | Gist.Science

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Il paper presenta HPENet, una serie di reti MLP efficienti per l'elaborazione di nuvole di punti che, integrando un encoding posizionale ad alta dimensionalità e operazioni non-locali all'interno di una nuova visione di astrazione e raffinamento, supera le prestazioni di modelli esistenti come PointNeXt riducendo drasticamente il costo computazionale.

Yanmei Zou, Hongshan Yu, Yaonan Wang + 4 more2026-03-05🤖 cs.AI

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Lo studio dimostra che la prevedibilità delle caratteristiche demografiche nelle risonanze magnetiche cerebrali deriva principalmente dalla variazione anatomica piuttosto che dal contrasto di acquisizione, evidenziando la necessità di strategie di mitigazione del bias che distinguano queste due fonti per garantire una generalizzazione robusta.

Mehmet Yigit Avci, Akshit Achara, Andrew King + 1 more2026-03-05🤖 cs.AI

Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

Il paper presenta Any2Any, un framework unificato basato su diffusione latente che, supportato dal nuovo dataset RST-1M, risolve il problema della traduzione arbitraria tra modalità di telerilevamento superando i limiti di complessità e generalizzazione dei metodi esistenti.

Haoyang Chen, Jing Zhang, Hebaixu Wang + 7 more2026-03-05💻 cs

TextBoost: Boosting Scene Text Fidelity in Ultra-low Bitrate Image Compression

Il paper presenta TextBoost, un metodo che migliora la fedeltà del testo nelle immagini compressi a bitrate ultra-basso trasmettendo informazioni testuali ausiliarie estratte via OCR per guidare il decoder, ottenendo un riconoscimento del testo significativamente migliore senza compromettere la qualità globale dell'immagine.

Bingxin Wang, Yuan Lan, Zhaoyi Sun + 2 more2026-03-05💻 cs

A Baseline Study and Benchmark for Few-Shot Open-Set Action Recognition with Feature Residual Discrimination

Questo studio introduce un nuovo benchmark e un metodo basato su un discriminatore di residui delle caratteristiche (FR-Disc) per il riconoscimento delle azioni in scenari open-set a pochi esempi, ottenendo risultati all'avanguardia nel rifiutare azioni sconosciute senza compromettere l'accuratezza su quelle note.

Stefano Berti, Giulia Pasquale, Lorenzo Natale2026-03-05💻 cs

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Il paper presenta Crab⁺, un modello unificato e scalabile per la comprensione audio-visiva che risolve il problema del trasferimento negativo attraverso il dataset AV-UIE v2 e l'architettura I-LoRA, permettendo un apprendimento multi-task che supera le prestazioni dei modelli specializzati in quasi l'88% dei casi.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

Il paper presenta un framework di regolazione dell'attenzione a tempo di inferenza che, integrando maschere anatomiche e correzioni latenti guidate dalla patologia, genera immagini sintetiche di radiografie toraciche controfattuali con maggiore coerenza strutturale e localizzazione precisa delle lesioni.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

Questo articolo propone HBRB-BoW, un algoritmo di addestramento lessicale gerarchico che integra flussi di valori reali per preservare l'integrità delle informazioni descrittive e migliorare le prestazioni di loop closing e relocalizzazione in ORB-SLAM, superando le limitazioni di precisione delle tradizionali tecniche di raggruppamento binario.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Questo articolo presenta il LISTA-Transformer, un modello innovativo che integra la codifica sparsa basata sull'algoritmo LISTA con il meccanismo di attenzione del Transformer per migliorare l'estrazione di caratteristiche locali e globali nei segnali di vibrazione, ottenendo un tasso di riconoscimento dei guasti del 98,5% sul dataset CWRU.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

Questo studio introduce un framework di addestramento aumentato basato su degradazioni artificiali che, applicato selettivamente a un sottoinsieme di individui, migliora significativamente la robustezza e l'accuratezza del re-identificazione individuale degli animali selvatici in condizioni di immagine degradate, fornendo al contempo nuovi benchmark e risorse open source per la comunità scientifica.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

Il paper introduce PlaneCycle, un operatore senza addestramento e senza adattatori che permette di trasformare modelli fondazione 2D preaddestrati in reti 3D riutilizzando il backbone originale attraverso una distribuzione ciclica dell'aggregazione spaziale, ottenendo prestazioni competitive su compiti di classificazione e segmentazione 3D senza modifiche strutturali.

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Questo lavoro propone un formalismo unificato per l'aggregazione di densità basato sulle medie generalizzate, dimostrando teoricamente e validando empiricamente che solo l'intervallo $r \in [0,1]$ garantisce miglioramenti sistematici rispetto alle distribuzioni individuali, fornendo così una giustificazione rigorosa per l'uso diffuso della media lineare ( $r=1$ ) e geometrica ( $r=0$ ) negli ensemble di deep learning.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

Il paper introduce Real5-OmniDocBench, il primo benchmark che ricrea fisicamente l'intero dataset OmniDocBench v1.5 in cinque scenari reali, permettendo per la prima volta un'analisi rigorosa delle cause del degrado delle prestazioni dei modelli Vision-Language nel mondo fisico e rivelando che il divario tra simulazione e realtà nel parsing documentale è ancora significativo.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

Nearest-Neighbor Density Estimation for Dependency Suppression

Il paper propone un metodo basato su un autoencoder variazionale specializzato e una stima della densità non parametrica per rimuovere le dipendenze indesiderate dai dati preservandone l'utilità, superando le tecniche esistenti sia non supervisionate che supervisionate.

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

Il paper propone DiverseDiT, un nuovo framework che migliora l'apprendimento delle rappresentazioni nei Diffusion Transformers introducendo connessioni residue lunghe e una funzione di perdita specifica per promuovere la diversità delle rappresentazioni tra i blocchi, ottenendo così prestazioni superiori e una convergenza più rapida su diversi backbones e configurazioni.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

DeNuC: Decoupling Nuclei Detection and Classification in Histopathology

Il paper propone DeNuC, un metodo che migliora significativamente la rilevazione e la classificazione dei nuclei nelle immagini istopatologiche disaccoppiando le due fasi per sfruttare appieno i modelli fondazionali, ottenendo prestazioni superiori con un numero di parametri addestrabili drasticamente ridotto.

Zijiang Yang, Chen Kuang, Dongmei Fu2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

Il paper propone EmbodiedSplat, un metodo feed-forward online basato su 3DGS che permette la ricostruzione e la comprensione semantica open-vocabulary di scene 3D in tempo reale, integrando embedding CLIP 2D con caratteristiche geometriche 3D per garantire generalizzabilità e bassa memoria.

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

Questo articolo presenta un'architettura neurale equivariante per il colore che risolve le imperfezioni dei metodi precedenti elevando le quantità di saturazione e luminosità dall'intervallo reale al cerchio (una doppia copertura), ottenendo così una vera equivarianza che migliora le prestazioni in compiti come la classificazione fine-grained e l'imaging medico.

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Il paper introduce ViterbiPlanNet, un framework innovativo che integra esplicitamente la conoscenza procedurale tramite un Livello Viterbi Differenziabile per migliorare l'efficienza dei campioni e le prestazioni nella pianificazione di video istruttivi, superando i metodi basati su modelli di grandi dimensioni con un numero significativamente inferiore di parametri.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

Il paper propone SSR, un framework generico di compressione delle mappe che combina descrizioni testuali e piccoli vettori di caratteristiche visive per ridurre significativamente i costi di memoria e larghezza di banda mantenendo un'elevata precisione nella localizzazione robotica.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

← Precedente Successivo →

cs.CV