cs.CV articoli | Gist.Science

Momentum Memory for Knowledge Distillation in Computational Pathology

Il paper propone MoMKD, un nuovo framework di distillazione della conoscenza basato su una memoria aggiornata con momento che risolve le instabilità dei metodi attuali e permette una diagnosi accurata del cancro utilizzando solo dati istologici, superando la scarsità di dati genomici accoppiati.

Yongxin Guo, Hao Lu, Onur C. Koyun + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

Questo articolo propone un approccio dinamico per la mappatura nel riconoscimento visivo dei luoghi che seleziona automaticamente la densità della mappa necessaria per garantire che un livello specifico di richiamo locale sia soddisfatto per una percentuale definita dell'ambiente operativo, superando i limiti delle densità di campionamento fisse e globali tipicamente utilizzate.

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Il paper propone SCR (Spatial Credit Redistribution), un metodo di inferenza senza addestramento che riduce le allucinazioni nei modelli visione-linguaggio redistribuendo l'attenzione spaziale dai patch dominanti ai contesti circostanti, ottenendo significativi miglioramenti nella precisione su diversi benchmark senza compromettere la qualità della generazione o la latenza.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

Il paper presenta EvalMVX, un nuovo dataset reale con ground-truth 3D e condizioni di illuminazione e visione multiview diversificate, progettato per valutare e confrontare in modo unificato i metodi di ricostruzione neurale basati su stereo multiview, fotometria multiview e forma dalla polarizzazione.

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

Questo lavoro propone un framework MambdaBDA migliorato, integrato con Focal Loss, gate di attenzione e un modulo di allineamento, che supera significativamente le prestazioni del modello di base nella valutazione dei danni agli edifici tramite immagini satellitari, garantendo una maggiore robustezza e generalizzazione su diversi scenari di disastro.

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

Questo lavoro presenta uno studio unificato che esamina sistematicamente le interazioni tra il parametro di temperatura e altri elementi di addestramento nella distillazione della conoscenza, fornendo linee guida pratiche per la sua selezione ottimale.

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

Il paper propone ITO, un framework che supera i limiti delle pre-addestramenti immagine-testo esistenti integrando un allineamento multimodale multiplo e una fusione strutturata durante l'addestramento (poi rimossa all'inferenza) per eliminare il divario tra le modalità e migliorare le prestazioni su diversi benchmark.

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

Toward Early Quality Assessment of Text-to-Image Diffusion Models

Il lavoro introduce Probe-Select, un modulo plug-in che valuta la qualità delle immagini generata dai modelli di diffusione testo-immagine analizzando le attivazioni intermedie precoci, permettendo di terminare i campioni promettenti in anticipo e riducendo così i costi di calcolo del 60% senza modificare il modello generativo sottostante.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

Questo lavoro generalizza lo splatting gaussiano 3D (3DGS) introducendo operatori di alpha-blending non esponenziali basati su una trasmissione quadratica, che mantengono la qualità visiva originale riducendo significativamente il numero di overdraw e ottenendo accelerazioni fino a 4 volte in scenari complessi.

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Il paper introduce TRACE, un nuovo modello di recupero multimodale universale che unisce il ragionamento generativo tramite Chain-of-Thought con l'apprendimento rappresentazionale, permettendo di attivare dinamicamente il ragionamento solo per query complesse e ottenendo così prestazioni state-of-the-art e una notevole trasferibilità zero-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

Il paper presenta MoECLIP, un'architettura basata su Mixture-of-Experts che migliora il rilevamento di anomalie a zero-shot specializzando dinamicamente adattatori LoRA per singole patch dell'immagine, superando i limiti dei metodi esistenti e ottenendo risultati all'avanguardia su 14 dataset industriali e medici.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

Il paper propone ProSMA-UNet, un'architettura di segmentazione medica che riformula l'aggiunta delle connessioni skip come un problema di selezione sparsa delle caratteristiche guidata dal decoder, utilizzando un operatore di prossimità $\ell_1$ per eliminare esplicitamente il rumore e le attivazioni irrilevanti, ottenendo così prestazioni state-of-the-art, specialmente in compiti di segmentazione 3D complessi.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

Il paper propone SpeciaRL, un nuovo framework di apprendimento per rinforzo sensibile alla specificità che guida i modelli linguistici multimodali ragionevoli a produrre classificazioni di immagini fine-grained sia corrette che specifiche in contesti open-world, superando le tendenze attuali verso previsioni eccessivamente generiche.

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

Questo articolo presenta una panoramica completa del Deep Sketch-Based 3D Modeling (DS-3DM) attraverso il nuovo spazio progettuale MORPHEUS, che analizza come i metodi basati sull'intelligenza artificiale trasformino gli input umani in modelli 3D per migliorare flessibilità, fedeltà e adattabilità, evidenziando al contempo le sfide attuali e le opportunità di ricerca interdisciplinare.

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Questo studio dimostra che il trasferimento di apprendimento basato sull'iconicità tra lingue dei segni diverse (cinese-arabo e greco-fiammingo) migliora le prestazioni del riconoscimento, ottenendo incrementi rispettivamente del 7,02% e dell'1,07% grazie all'uso di Google MediaPipe, un MLP e un'unità ricorrente a cancellazione controllata.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Questo articolo presenta mHC-HSI, un modello di classificazione di immagini iperspettrali basato su Mamba e guidato dal clustering che integra connessioni iper-legate vincolate da varietà per migliorare l'apprendimento delle caratteristiche spaziali e spettrali, la decomposizione in cluster interpretabili e l'uso di conoscenze fisiche delle bande spettrali.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Lo studio dimostra che l'addestramento con ricompense verificabili basate solo sul testo, sebbene aumenti l'accuratezza nei benchmark di VQA medica, comprometta il grounding visivo e favorisca l'uso di scorciatoie, rendendo necessario un nuovo framework di valutazione che includa metriche come il Visual Reliance Score e il tasso di ragionamento visivo allucinato.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Il paper presenta Proact-VL, un framework per agenti interattivi in tempo reale che risolve le sfide di latenza e decisione autonoma nelle esperienze di AI companions, dimostrando le sue capacità attraverso il nuovo Live Gaming Benchmark in scenari di gioco.

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

Questo studio analizza come gli errori di localizzazione, in particolare quelli angolari, degradino la qualità delle etichette per la costruzione di mappe HD online, dimostrando che l'aggiunta di dati rumorosi riduce le prestazioni del modello in modo non lineare e proponendo una nuova metrica basata sulla distanza per valutare l'impatto.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

Il paper presenta PERSIST, un nuovo paradigma di modello del mondo che simula l'evoluzione di una scena 3D latente per garantire memoria spaziale persistente e coerenza geometrica, superando i limiti dei modelli esistenti basati su pixel e abilitando il controllo fine degli ambienti generati direttamente nello spazio 3D.

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

← Precedente Successivo →