cs.CV articoli | Gist.Science

Toward Early Quality Assessment of Text-to-Image Diffusion Models

Il lavoro introduce Probe-Select, un modulo plug-in che valuta la qualità delle immagini generata dai modelli di diffusione testo-immagine analizzando le attivazioni intermedie precoci, permettendo di terminare i campioni promettenti in anticipo e riducendo così i costi di calcolo del 60% senza modificare il modello generativo sottostante.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

Questo lavoro generalizza lo splatting gaussiano 3D (3DGS) introducendo operatori di alpha-blending non esponenziali basati su una trasmissione quadratica, che mantengono la qualità visiva originale riducendo significativamente il numero di overdraw e ottenendo accelerazioni fino a 4 volte in scenari complessi.

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Il paper introduce TRACE, un nuovo modello di recupero multimodale universale che unisce il ragionamento generativo tramite Chain-of-Thought con l'apprendimento rappresentazionale, permettendo di attivare dinamicamente il ragionamento solo per query complesse e ottenendo così prestazioni state-of-the-art e una notevole trasferibilità zero-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

Il paper presenta MoECLIP, un'architettura basata su Mixture-of-Experts che migliora il rilevamento di anomalie a zero-shot specializzando dinamicamente adattatori LoRA per singole patch dell'immagine, superando i limiti dei metodi esistenti e ottenendo risultati all'avanguardia su 14 dataset industriali e medici.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

Il paper propone ProSMA-UNet, un'architettura di segmentazione medica che riformula l'aggiunta delle connessioni skip come un problema di selezione sparsa delle caratteristiche guidata dal decoder, utilizzando un operatore di prossimità $\ell_1$ per eliminare esplicitamente il rumore e le attivazioni irrilevanti, ottenendo così prestazioni state-of-the-art, specialmente in compiti di segmentazione 3D complessi.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

Il paper propone SpeciaRL, un nuovo framework di apprendimento per rinforzo sensibile alla specificità che guida i modelli linguistici multimodali ragionevoli a produrre classificazioni di immagini fine-grained sia corrette che specifiche in contesti open-world, superando le tendenze attuali verso previsioni eccessivamente generiche.

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

Questo articolo presenta una panoramica completa del Deep Sketch-Based 3D Modeling (DS-3DM) attraverso il nuovo spazio progettuale MORPHEUS, che analizza come i metodi basati sull'intelligenza artificiale trasformino gli input umani in modelli 3D per migliorare flessibilità, fedeltà e adattabilità, evidenziando al contempo le sfide attuali e le opportunità di ricerca interdisciplinare.

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Questo studio dimostra che il trasferimento di apprendimento basato sull'iconicità tra lingue dei segni diverse (cinese-arabo e greco-fiammingo) migliora le prestazioni del riconoscimento, ottenendo incrementi rispettivamente del 7,02% e dell'1,07% grazie all'uso di Google MediaPipe, un MLP e un'unità ricorrente a cancellazione controllata.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Questo articolo presenta mHC-HSI, un modello di classificazione di immagini iperspettrali basato su Mamba e guidato dal clustering che integra connessioni iper-legate vincolate da varietà per migliorare l'apprendimento delle caratteristiche spaziali e spettrali, la decomposizione in cluster interpretabili e l'uso di conoscenze fisiche delle bande spettrali.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Lo studio dimostra che l'addestramento con ricompense verificabili basate solo sul testo, sebbene aumenti l'accuratezza nei benchmark di VQA medica, comprometta il grounding visivo e favorisca l'uso di scorciatoie, rendendo necessario un nuovo framework di valutazione che includa metriche come il Visual Reliance Score e il tasso di ragionamento visivo allucinato.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Il paper presenta Proact-VL, un framework per agenti interattivi in tempo reale che risolve le sfide di latenza e decisione autonoma nelle esperienze di AI companions, dimostrando le sue capacità attraverso il nuovo Live Gaming Benchmark in scenari di gioco.

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

Questo studio analizza come gli errori di localizzazione, in particolare quelli angolari, degradino la qualità delle etichette per la costruzione di mappe HD online, dimostrando che l'aggiunta di dati rumorosi riduce le prestazioni del modello in modo non lineare e proponendo una nuova metrica basata sulla distanza per valutare l'impatto.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

Il paper presenta PERSIST, un nuovo paradigma di modello del mondo che simula l'evoluzione di una scena 3D latente per garantire memoria spaziale persistente e coerenza geometrica, superando i limiti dei modelli esistenti basati su pixel e abilitando il controllo fine degli ambienti generati direttamente nello spazio 3D.

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

Il paper presenta Phys4D, un metodo innovativo che trasforma i modelli di diffusione video in rappresentazioni 4D fisicamente coerenti attraverso un paradigma di addestramento in tre fasi, migliorando significativamente la stabilità dinamica e la plausibilità fisica rispetto ai modelli basati solo sull'aspetto visivo.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Questo studio presenta un nuovo approccio bayesiano basato su Transformer ad alta risoluzione che fonde dati Sentinel-1, RCM e AMSR2 per mappare la concentrazione del ghiaccio marino artico a 200 metri e quantificare l'incertezza, superando le sfide delle etichette imprecise e dell'eterogeneità dei dati grazie a una funzione di perdita supervisionata debole geograficamente ponderata e a un'architettura che integra moduli globali e locali.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

Il paper presenta PhyPrompt, un framework di apprendimento per rinforzo a due stadi che affina automaticamente i prompt testuali per generare video coerenti con le leggi fisiche, ottenendo risultati superiori rispetto a modelli più grandi e trasferibili su diverse architetture senza bisogno di addestramento specifico.

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Il paper presenta PinCLIP, un nuovo approccio di apprendimento delle rappresentazioni multimodali su larga scala sviluppato da Pinterest che, grazie a un'architettura ibrida e a un obiettivo di allineamento dei vicini, supera le soluzioni esistenti migliorando significativamente il recupero dei contenuti, la distribuzione di materiale fresco e le prestazioni pubblicitarie.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Modeling Cross-vision Synergy for Unified Large Vision Model

Il paper presenta PolyV, un modello visivo unificato che, grazie a un'architettura a misto di esperti e una strategia di addestramento sinergico, supera i limiti delle integrazioni funzionali esistenti permettendo un ragionamento visivo trasversale che sfrutta i priors complementari di immagini, video e dati 3D.

Shengqiong Wu, Lanhu Wu, Mingyang Bao + 5 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

Questo lavoro propone un nuovo quadro per la stima della profondità monoculare in chirurgia minimamente invasiva che, integrando target di confidenza calibrati, funzioni di perdita consapevoli della confidenza e una testina di stima durante l'inferenza, migliora l'accuratezza e la affidabilità clinica riducendo l'impatto di artefatti come fumo e riflessi.

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

Il paper presenta L2G-Det, un nuovo framework di rilevamento istanziale che supera i limiti dei metodi basati su proposte sfruttando la corrispondenza densa a livello di patch per generare punti candidati, i quali vengono poi raffinati e utilizzati per guidare un modello SAM potenziato nella segmentazione accurata di oggetti sconosciuti in scenari aperti e affollati.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs

← Precedente Successivo →