cs.CV articoli | Gist.Science

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

Il paper presenta NeuCLIP, un nuovo framework di ottimizzazione che riformula la funzione di perdita contrastiva CLIP tramite analisi convessa e variazionale per stimare efficientemente il termine di normalizzazione utilizzando una rete neurale ausiliaria, superando così i limiti computazionali e di precisione dei metodi precedenti su dataset su larga scala.

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Scriboora: Rethinking Human Pose Forecasting

Il paper "Scriboora" presenta una pipeline unificata per la previsione della posa umana, evidenzia problemi di riproducibilità, dimostra come i modelli linguistici possano migliorare le prestazioni attuali e valuta la robustezza dei modelli su dati rumorosi derivanti da stime di posa reali, proponendo una nuova variante del dataset e tecniche di affinamento non supervisionato per recuperare le prestazioni perse.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

Il paper presenta MatPedia, un modello fondazionale generativo unificato che, grazie a una nuova rappresentazione congiunta RGB-PBR e all'addestramento su un vasto corpus misto, permette la sintesi ad alta fedeltà di materiali PBR per diverse attività come la generazione da testo, da immagine e la decomposizione intrinseca.

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

Il paper presenta VideoChat-M1, un sistema multi-agente basato sull'apprendimento per rinforzo che utilizza una pianificazione collaborativa delle policy per ottimizzare dinamicamente l'invocazione degli strumenti e migliorare la comprensione video, ottenendo risultati allo stato dell'arte su otto benchmark.

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

UniLight: A Unified Representation for Lighting

Il paper presenta UniLight, una rappresentazione unificata dello spazio latente che allinea contrastivamente diverse modalità di illuminazione (testo, immagini, irradiazione e mappe ambientali) per abilitare il trasferimento cross-modale e il controllo dell'illuminazione in compiti come il retrieval, la generazione di mappe ambientali e la sintesi di immagini.

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

Questo lavoro introduce il *Measurement-Consistent Langevin Corrector* (MCLC), un modulo teorico e plug-and-play che stabilizza i risolutori di problemi inversi basati su modelli di diffusione latente riducendo la discrepanza tra le dinamiche del solver e quelle apprese dal modello, garantendo così un comportamento più affidabile nello spazio latente senza fare affidamento su assunzioni di varietà lineare.

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising

Il paper propone WCC-Net, un framework di diffusione 3D che integra prior strutturali basate sulle ondelette per migliorare il denoising delle immagini PET a basso dosaggio, garantendo una migliore coerenza anatomica e prestazioni quantitative superiori rispetto ai metodi esistenti.

Peiyuan Jing, Yue Yang, Chun-Wun Cheng + 8 more2026-03-05🤖 cs.AI

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Questo studio presenta un pipeline automatizzato end-to-end per l'identificazione delle fratture della colonna cervicale che, combinando rilevamento 2D, segmentazione multi-proiezione e modelli ibridi CNN-Transformer, ricostruisce volumi 3D stimati per ottenere prestazioni diagnostiche comparabili a quelle degli esperti riducendo al contempo la dimensionalità computazionale.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Questo lavoro presenta VRFT-Aug, un framework di affinamento per rinforzo visivo progettato per il dominio medico che, integrando strategie di potenziamento della percezione e del ragionamento, supera le prestazioni dei metodi di affinamento supervisionato e delle basi di riferimento esistenti.

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

Il documento presenta i risultati della prima competizione internazionale sulla biometria del passo, che ha utilizzato il nuovo dataset StepUP-P150 per valutare modelli di riconoscimento, evidenziando un tasso di errore del 10,77% come miglior risultato ma sottolineando le sfide persistenti nella generalizzazione a diversi tipi di calzature.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Il paper introduce VidEoMT, un modello di segmentazione video basato su un semplice encoder ViT che, eliminando i complessi moduli di tracciamento dedicati e utilizzando un meccanismo di propagazione e fusione delle query, raggiunge prestazioni competitive con una velocità di esecuzione fino a 5-10 volte superiore rispetto ai metodi esistenti.

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero + 4 more2026-03-05💻 cs

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

Il paper propone CASG, un framework senza addestramento che risolve i conflitti di sicurezza multi-categoria nella generazione di immagini da testo identificando dinamicamente la categoria dannosa predominante e applicando una guida di sicurezza mirata, riducendo così il tasso di contenuti nocivi fino al 15,4% rispetto ai metodi esistenti.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor è un metodo ibrido che combina la previsione feed-forward di normali multivista con l'ottimizzazione del rendering inverso per ricostruire in pochi secondi geometrie 3D ad alta fedeltà di teste umane, superando i compromessi tra dettaglio e velocità delle tecniche esistenti.

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

Momentum Memory for Knowledge Distillation in Computational Pathology

Il paper propone MoMKD, un nuovo framework di distillazione della conoscenza basato su una memoria aggiornata con momento che risolve le instabilità dei metodi attuali e permette una diagnosi accurata del cancro utilizzando solo dati istologici, superando la scarsità di dati genomici accoppiati.

Yongxin Guo, Hao Lu, Onur C. Koyun + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

Questo articolo propone un approccio dinamico per la mappatura nel riconoscimento visivo dei luoghi che seleziona automaticamente la densità della mappa necessaria per garantire che un livello specifico di richiamo locale sia soddisfatto per una percentuale definita dell'ambiente operativo, superando i limiti delle densità di campionamento fisse e globali tipicamente utilizzate.

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Il paper propone SCR (Spatial Credit Redistribution), un metodo di inferenza senza addestramento che riduce le allucinazioni nei modelli visione-linguaggio redistribuendo l'attenzione spaziale dai patch dominanti ai contesti circostanti, ottenendo significativi miglioramenti nella precisione su diversi benchmark senza compromettere la qualità della generazione o la latenza.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

Il paper presenta EvalMVX, un nuovo dataset reale con ground-truth 3D e condizioni di illuminazione e visione multiview diversificate, progettato per valutare e confrontare in modo unificato i metodi di ricostruzione neurale basati su stereo multiview, fotometria multiview e forma dalla polarizzazione.

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

Questo lavoro propone un framework MambdaBDA migliorato, integrato con Focal Loss, gate di attenzione e un modulo di allineamento, che supera significativamente le prestazioni del modello di base nella valutazione dei danni agli edifici tramite immagini satellitari, garantendo una maggiore robustezza e generalizzazione su diversi scenari di disastro.

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

Questo lavoro presenta uno studio unificato che esamina sistematicamente le interazioni tra il parametro di temperatura e altri elementi di addestramento nella distillazione della conoscenza, fornendo linee guida pratiche per la sua selezione ottimale.

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

Il paper propone ITO, un framework che supera i limiti delle pre-addestramenti immagine-testo esistenti integrando un allineamento multimodale multiplo e una fusione strutturata durante l'addestramento (poi rimossa all'inferenza) per eliminare il divario tra le modalità e migliorare le prestazioni su diversi benchmark.

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

← Precedente Successivo →