cs.CV articoli | Gist.Science

Topological Alignment of Shared Vision-Language Embedding Space

Il paper presenta ToMCLIP, un framework che migliora l'allineamento multilingue nei modelli visione-linguaggio applicando vincoli topologici basati sull'omologia persistente per preservare la geometria globale dello spazio di embedding, ottenendo così prestazioni superiori nel recupero multilingue e nel riconoscimento zero-shot.

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

Il paper presenta COGS, un framework di sintesi dati basato sulla composizione che potenzia le capacità di ragionamento dei modelli linguistici multimodali preaddestrati su domini artificiali come grafici e pagine web, decomponendo le domande in fattori primitici per generare coppie domanda-risposta sintetiche addestrate con ricompense di processo a livello fattoriale.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

A Geometry-Based View of Mahalanobis OOD Detection

Questo studio dimostra che l'efficacia del rilevamento OOD basato su Mahalanobis dipende dalla geometria dello spazio delle caratteristiche, introducendo una normalizzazione radialmente scalata che ottimizza le prestazioni sfruttando segnali geometrici intrinseci.

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

Kaleido è un modello open-source per la generazione di video multi-soggetto che supera le limitazioni degli approcci esistenti grazie a una pipeline di costruzione dati dedicata e a una nuova codifica posizionale rotazionale (R-RoPE), garantendo una maggiore coerenza, fedeltà e disentanglement dello sfondo.

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang + 6 more2026-03-05🤖 cs.AI

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

Il documento presenta il Prior-guided Concept Predictor (PCP), un nuovo framework di apprendimento debolmente supervisionato che, sfruttando prior di classe e meccanismi di regolarizzazione, permette di ottenere diagnosi mediche interpretabili senza costose annotazioni concettuali, superando significativamente le prestazioni dei modelli zero-shot e competendo con quelli completamente supervisionati.

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs

Improving Multi-View Reconstruction via Texture-Guided Gaussian-Mesh Joint Optimization

Questo articolo propone un nuovo framework unificato che ottimizza simultaneamente la geometria della mesh e i colori dei vertici, guidati dai Gaussiani, per ottenere ricostruzioni 3D di alta qualità da immagini multi-vista, superando la separazione tradizionale tra accuratezza geometrica e rendering fotorealistico e abilitando così compiti di editing downstream come il rilighting e la deformazione.

Zhejia Cai, Puhua Jiang, Shiwei Mao + 2 more2026-03-05🤖 cs.AI

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

Il paper propone un nuovo framework di concordanza semantica consapevole dei bordi che, attraverso la ricodifica latente e l'ottimizzazione dell'incertezza, risolve l'eterogeneità tra eventi e RGB per ottenere una segmentazione semantica resiliente anche in condizioni estreme.

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

Il paper presenta NeuCLIP, un nuovo framework di ottimizzazione che riformula la funzione di perdita contrastiva CLIP tramite analisi convessa e variazionale per stimare efficientemente il termine di normalizzazione utilizzando una rete neurale ausiliaria, superando così i limiti computazionali e di precisione dei metodi precedenti su dataset su larga scala.

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Scriboora: Rethinking Human Pose Forecasting

Il paper "Scriboora" presenta una pipeline unificata per la previsione della posa umana, evidenzia problemi di riproducibilità, dimostra come i modelli linguistici possano migliorare le prestazioni attuali e valuta la robustezza dei modelli su dati rumorosi derivanti da stime di posa reali, proponendo una nuova variante del dataset e tecniche di affinamento non supervisionato per recuperare le prestazioni perse.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

Il paper presenta MatPedia, un modello fondazionale generativo unificato che, grazie a una nuova rappresentazione congiunta RGB-PBR e all'addestramento su un vasto corpus misto, permette la sintesi ad alta fedeltà di materiali PBR per diverse attività come la generazione da testo, da immagine e la decomposizione intrinseca.

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

Il paper presenta VideoChat-M1, un sistema multi-agente basato sull'apprendimento per rinforzo che utilizza una pianificazione collaborativa delle policy per ottimizzare dinamicamente l'invocazione degli strumenti e migliorare la comprensione video, ottenendo risultati allo stato dell'arte su otto benchmark.

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

UniLight: A Unified Representation for Lighting

Il paper presenta UniLight, una rappresentazione unificata dello spazio latente che allinea contrastivamente diverse modalità di illuminazione (testo, immagini, irradiazione e mappe ambientali) per abilitare il trasferimento cross-modale e il controllo dell'illuminazione in compiti come il retrieval, la generazione di mappe ambientali e la sintesi di immagini.

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

Questo lavoro introduce il *Measurement-Consistent Langevin Corrector* (MCLC), un modulo teorico e plug-and-play che stabilizza i risolutori di problemi inversi basati su modelli di diffusione latente riducendo la discrepanza tra le dinamiche del solver e quelle apprese dal modello, garantendo così un comportamento più affidabile nello spazio latente senza fare affidamento su assunzioni di varietà lineare.

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising

Il paper propone WCC-Net, un framework di diffusione 3D che integra prior strutturali basate sulle ondelette per migliorare il denoising delle immagini PET a basso dosaggio, garantendo una migliore coerenza anatomica e prestazioni quantitative superiori rispetto ai metodi esistenti.

Peiyuan Jing, Yue Yang, Chun-Wun Cheng + 8 more2026-03-05🤖 cs.AI

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Questo studio presenta un pipeline automatizzato end-to-end per l'identificazione delle fratture della colonna cervicale che, combinando rilevamento 2D, segmentazione multi-proiezione e modelli ibridi CNN-Transformer, ricostruisce volumi 3D stimati per ottenere prestazioni diagnostiche comparabili a quelle degli esperti riducendo al contempo la dimensionalità computazionale.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Questo lavoro presenta VRFT-Aug, un framework di affinamento per rinforzo visivo progettato per il dominio medico che, integrando strategie di potenziamento della percezione e del ragionamento, supera le prestazioni dei metodi di affinamento supervisionato e delle basi di riferimento esistenti.

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

Il documento presenta i risultati della prima competizione internazionale sulla biometria del passo, che ha utilizzato il nuovo dataset StepUP-P150 per valutare modelli di riconoscimento, evidenziando un tasso di errore del 10,77% come miglior risultato ma sottolineando le sfide persistenti nella generalizzazione a diversi tipi di calzature.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Il paper introduce VidEoMT, un modello di segmentazione video basato su un semplice encoder ViT che, eliminando i complessi moduli di tracciamento dedicati e utilizzando un meccanismo di propagazione e fusione delle query, raggiunge prestazioni competitive con una velocità di esecuzione fino a 5-10 volte superiore rispetto ai metodi esistenti.

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero + 4 more2026-03-05💻 cs

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

Il paper propone CASG, un framework senza addestramento che risolve i conflitti di sicurezza multi-categoria nella generazione di immagini da testo identificando dinamicamente la categoria dannosa predominante e applicando una guida di sicurezza mirata, riducendo così il tasso di contenuti nocivi fino al 15,4% rispetto ai metodi esistenti.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor è un metodo ibrido che combina la previsione feed-forward di normali multivista con l'ottimizzazione del rendering inverso per ricostruire in pochi secondi geometrie 3D ad alta fedeltà di teste umane, superando i compromessi tra dettaglio e velocità delle tecniche esistenti.

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

← Precedente Successivo →