cs.CV articoli | Gist.Science

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Il paper presenta Omni-C, un singolo encoder denso basato su Transformer che comprime modalità eterogenee (immagini, audio e testo) in rappresentazioni condivise tramite pre-addestramento contrastivo, eliminando la necessità di architetture Mixture-of-Experts e riducendo significativamente l'uso di memoria rispetto ai modelli multimodali tradizionali.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Clinical-Injection Transformer with Domain-Adapted MAE for Lupus Nephritis Prognosis Prediction

Questo studio propone il primo quadro computazionale multimodale per la prognosi della nefrite lupica pediatrica, che combina dati clinici e istopatologici tramite un Transformer a iniezione clinica e un MAE adattato al dominio, ottenendo un'accuratezza del 90,1% nella previsione della risposta al trattamento utilizzando solo biopsie colorate con PAS.

Yuewen Huang, Zhitao Ye, Guangnan Feng, Fudan Zheng, Xia Gao, Yutong Lu2026-03-09🤖 cs.LG

Edges Are All You Need: Robust Gait Recognition via Label-Free Structure

Il paper propone SKETCHGAIT, un nuovo framework per il riconoscimento dell'andatura che supera i limiti delle rappresentazioni basate su silhouette e parsing introducendo una modalità visiva "sketch" estratta in modo privo di etichette dai contorni strutturali delle immagini RGB, ottenendo risultati superiori su dataset pubblici.

Chao Zhang, Zhuang Zheng, Ruixin Li, Zhanyong Mei2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

Questo articolo presenta una pipeline di previsione delle traiettorie guidata dal gemello digitale per incroci urbani V2X, che combina un generatore Bi-LSTM con una funzione di perdita innovativa per garantire previsioni accurate, sicure e conformi alle regole del traffico riducendo le violazioni critiche.

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

Il paper presenta AutoThinkRAG, un framework che migliora il ragionamento su documenti complessi tramite un router di difficoltà delle query e un'architettura a decoupling funzionale che combina un piccolo modello visivo per l'interpretazione e un LLM per la deduzione, ottenendo prestazioni all'avanguardia con costi ridotti.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang Cai2026-03-09💻 cs

Bias In, Bias Out? Finding Unbiased Subnetworks in Vanilla Models

Questo lavoro introduce BISE, una strategia che estrae sottoreti prive di pregiudizi da modelli neurali pre-addestrati convenzionali tramite potatura, consentendo una mitigazione efficiente dei bias senza necessità di riaddestramento o dati aggiuntivi.

Ivan Luiz De Moura Matos, Abdel Djalil Sad Saoud, Ekaterina Iakovleva, Vito Paolo Pastore, Enzo Tartaglione2026-03-09🤖 cs.LG

Thinking with Spatial Code for Physical-World Video Reasoning

Il paper presenta "Thinking with Spatial Code", un nuovo framework che trasforma i video RGB in rappresentazioni 3D esplicite e coerenti nel tempo, permettendo ai modelli linguistici di ragionare su variabili spaziali strutturate e ottenendo risultati all'avanguardia nel benchmark VSI-Bench per il ragionamento fisico.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

Questo lavoro propone il primo framework di verifica robusta accoppiata per i rilevatori di punti chiave basati su heatmap, che utilizza un programma lineare intero misto per garantire la stabilità congiunta di tutti i punti chiave, superando i limiti conservativi dei metodi decoupled precedenti.

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

DreamCAD è un nuovo framework generativo multimodale che supera le limitazioni dei dati annotati producendo modelli CAD editabili direttamente da supervisione a livello di punti e da un vasto dataset di 1 milione di descrizioni, ottenendo prestazioni all'avanguardia nella generazione di geometrie complesse.

Mohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi2026-03-09🤖 cs.AI

Adversarial Batch Representation Augmentation for Batch Correction in High-Content Cellular Screening

Il paper propone ABRA, un nuovo metodo di generalizzazione di dominio che utilizza l'aumento avversario delle rappresentazioni per correggere gli effetti di batch biologici nelle immagini di screening ad alto contenuto, ottenendo risultati all'avanguardia nella classificazione delle perturbazioni siRNA.

Lei Tong, Xujing Yao, Adam Corrigan, Long Chen, Navin Rathna Kumar, Kerry Hallbrook, Jonathan Orme, Yinhai Wang, Huiyu Zhou2026-03-09🤖 cs.AI

Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection

Il paper propone il Post Fusion Stabilizer (PFS), un modulo leggero che stabilizza le rappresentazioni BEV intermedie nei sistemi di rilevamento 3D multimodali, migliorando significativamente la robustezza rispetto a guasti dei sensori e cambiamenti di dominio senza richiedere modifiche architetturali o riaddestramento.

Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin2026-03-09🤖 cs.AI

Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

Il paper introduce CBM-Suite, un framework metodologico che risolve le limitazioni fondamentali dei Concept Bottleneck Models proponendo una metrica basata sull'entropia per valutare la rilevanza dei concetti, un layer non lineare per evitare il bypass del bottleneck, una distillazione guidata per colmare il divario di accuratezza e un'analisi sistematica dell'impatto dei diversi backbones visivi.

Merve Tapli, Quentin Bouniot, Wolfgang Stammer, Zeynep Akata, Emre Akbas2026-03-09💻 cs

Making Reconstruction FID Predictive of Diffusion Generation FID

Il paper propone l'interpolated FID (iFID), una nuova metrica che interpola le rappresentazioni latenti tra i dati e i loro vicini più prossimi, dimostrando una forte correlazione con la qualità della generazione dei modelli di diffusione e risolvendo il problema della scarsa predittività del reconstruction FID tradizionale.

Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang2026-03-09🤖 cs.LG

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Questo paper propone l'Implicit Error Counting (IEC), un metodo di apprendimento per rinforzo senza riferimenti che valuta le risposte enumerando gli errori invece di utilizzare rubriche basate su risposte ideali, dimostrando la sua superiorità nel post-training per il virtual try-on su benchmark specifici.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

Il paper propone SemVID, un framework di pruning dei token senza addestramento che, preservando le evidenze critiche e la connettività inter-frame attraverso una specifica allocazione semantica, ottimizza l'efficienza e le prestazioni del grounding temporale video mantenendo un'alta accuratezza.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

Il paper propone l'uso di primitive di Gabor, che modulano involucri gaussiani con esponenziali complessi per rappresentare efficacemente sia le strutture lisce che i confini netti, combinati con una decomposizione temporale a basso rango per ricostruire immagini di risonanza magnetica cardiaca cine accelerate, superando le prestazioni dei metodi esistenti come la compressione sensoriale e le rappresentazioni neurali implicite.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

Il documento presenta OWL, un nuovo approccio analitico basato sul tempo che utilizza segnali visivi di movimento per abilitare la ricostruzione 3D scalata e la mappatura in tempo reale senza richiedere conoscenze preliminari sull'ambiente o sul movimento della telecamera.

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

Il paper presenta un nuovo framework longitudinale di inpainting per risonanze magnetiche cerebrali basato su modelli di diffusione 3D region-aware, che supera le tecniche esistenti garantendo maggiore fedeltà percettiva, stabilità temporale ed efficienza computazionale nell'analisi delle lesioni evolutive.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

Il paper introduce MultiHaystack, il primo benchmark su larga scala che valuta la capacità dei modelli linguistici multimodali di recuperare e ragionare su oltre 46.000 documenti, immagini e video, rivelando che le prestazioni crollano drasticamente quando è richiesto un recupero dell'evidenza da un corpus eterogeneo rispetto all'analisi diretta dei dati forniti.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

Il paper introduce un framework interpretabile per la geolocalizzazione audiovisiva che combina un benchmark globale, un'analisi semantica del suono tramite "atomi acustici" e un ragionamento multimodale ottimizzato, dimostrando come l'integrazione di segnali uditivi e visivi superi significativamente i metodi unimodali per una localizzazione globale di alta precisione.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

← Precedente Successivo →