SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Il paper presenta SVG-EAR, un metodo senza parametri che migliora l'efficienza della generazione video tramite Diffusion Transformers utilizzando una compensazione lineare basata su centroidi e un routing consapevole dell'errore per recuperare le informazioni perse nella sparsificazione, ottenendo significativi guadagni di velocità senza compromettere la qualità.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Il paper presenta SurgCalib, un framework automatico e senza marcatori basato su Gaussian Splatting per la calibrazione mano-occhio del robot chirurgico da Vinci, che risolve le sfide delle misurazioni imprecise dei robot a cavo attraverso un'ottimizzazione differenziabile sotto vincolo RCM, ottenendo errori di riproiezione e di distanza 3D ridotti sul benchmark dVRK.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Il paper propone Normalized Flow Matching (NFM), un nuovo metodo che distilla l'accoppiamento quasi-deterministico di modelli di Flussi Normalizzanti preaddestrati per addestrare modelli di Flow Matching studenti, ottenendo prestazioni superiori sia rispetto ai tradizionali accoppiamenti indipendenti o di trasporto ottimo, sia rispetto al modello insegnante stesso.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Questo lavoro propone una misura di piattezza esatta e fedele all'architettura per le CNN, derivando un'espressione in forma chiusa per la traccia dell'Hessiano e specializzandola per i livelli convoluzionali, dimostrando empiricamente la sua efficacia come strumento robusto per stimare le prestazioni di generalizzazione e guidare la progettazione dei modelli.

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Il documento presenta WS-Net, un framework di deep learning che combina modellazione a spazio di stato (Mamba) e un meccanismo di attenzione per segnali deboli, al fine di migliorare l'accuratezza della stima delle abbondanze nell'unmixing iperspettrale, specialmente in presenza di risposte spettrali deboli e rumore.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Questo studio propone un framework potenziato basato su YOLOv8 che integra rilevamento di incendi e fumo con un'analisi di prossimità per valutare i rischi nei cantieri ingegneristici, calcolando distanze reali e generando un punteggio di rischio quantitativo con prestazioni superiori al 90% di precisione.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Il paper presenta GST-VLA, un modello Vision-Language-Action che introduce un Tokenizzatore Spaziale Gaussiano per rappresentare le osservazioni visive come primitive 3D anisotrope e un meccanismo di ragionamento CoT sensibile alla profondità, ottenendo prestazioni superiori su compiti robotici complessi grazie a una rappresentazione geometrica strutturata e a un'architettura di azione basata sul flow-matching.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Questo studio diagnostica il "gap di modalità" che riduce le prestazioni dei modelli linguistici multimodali quando elaborano testo come immagini, identificando le cause degli errori di lettura e proponendo un metodo di auto-distillazione che ripristina l'accuratezza fino a livelli superiori al 92% senza dimenticare le conoscenze pregresse.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

Training-free Motion Factorization for Compositional Video Generation

Il paper propone un framework di fattorizzazione del movimento che, senza richiedere addestramento, scompone la generazione video composita in tre categorie (staticità, movimento rigido e non rigido) attraverso una fase di pianificazione strutturata e una generazione disaccoppiata, migliorando la sintesi di motion su modelli di diffusione esistenti.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Il paper propone un framework basato su transformer per la ricerca di casi di cancro della pelle mediante query composte da immagine e testo, che migliora le prestazioni attraverso un allineamento congiunto di rappresentazioni globali e locali, ottenendo risultati superiori rispetto agli stati dell'arte sul dataset Derm7pt.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

Questo studio presenta il primo framework automatizzato basato su trasformatori (SegFormer) per la segmentazione multi-regione di immagini HR-pQCT, dimostrando che l'estrazione di caratteristiche radiomiche dai tessuti molli, piuttosto che dalle sole strutture ossee, migliora significativamente l'accuratezza nella classificazione dell'osteoporosi.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs